Model Speed (tok/sec) Tokens Time to 1st Token
------------------------------------------------------------------
Glm-4.5-air.-mlx 26.43 1575 6.70 s
Glm-4.5-air.-mlx 26.65 1051 6.66 s
Glm-4.5-air 38.86 1504 5.96 s
Glm-4.5-air 38.86 1486 5.75 s
Qwen/qwen3-next-80b 63.10 917 4.04 s
Qwen/qwen3-next-80b 62.42 2066 2.11 s
Naposledy upravil/-a Chris v St 01. Okt, 2025, 14:06, upravené celkom 1 krát.
cim si robil ten benchmark? ja som sa s tym zacal hrat tento tyzden, ale som obmedzeny RAMkou (32GB system RAM a 8GB RTX 3060Ti). MacBook som este neskusal, ale nemyslim si ze dosiahnem lepsie vysledky (M3 Pro, 18GB RAM)
pouzivam hlavne gwen3-coder-30b a ten mi ide pocitoo ide prekvapivo dobre - 10-15 tok/sec. ale oproti claude-4-sonnet je vystup taky horsi (claude je ale drahy). skusal som aj niektore extensiony pre VSCode, napr roocode, ten ma velmi pekny koncept, dava otazky, vytvori tasklist a snazi sa nakodovat celu appku, akurat ze mi vytvoril nieco co zaberalo 500 mega, spustit to slo az po 5 debugovaniach a a tak to nerobilo to co som ocakaval od neho.
ale tie rychlosti na gwen3-next mas paradne a podla popisu tvrdia ze to nie je ani narocnejsie ako gwen3-30b, ale predpokladam ze naorky na pamat sa takto optimalizovat nedaju, tak to nerozbehnem. a nie je to este na ollama a neskumal som ako rozbehnut huggingface
aha, som myslel ze je to nejaky benchmark ktory si spusti rozne LLM modely a zapise vysledky
s LM studio ako si spoko? v com je lepsi ako VSCode s nejakymi pluginmi? ja si prompty stale davam do OpenWebUI, ale nesnazim sa o uplny vibe coding ale skor pochopit veci a suvislosti, nech viem co to robi. lebo pri pokuse o vibe coding som skoncil s tisickami riadkami kodu o ktorych ani diva svina netusi co robia
LM studio je len kde spustas rozne LLM a zapnes API. Lepsia je ollama len tam to musis vediet naladit kolko vrstiev na gpu, kolko na cpu.
Hlavne to dava zmysel ak mas nejaky multichannel AMD EPYC , DDR4-5 ramky a fajnove RTX Blackwell alebo klasicke retail RTX...
VScode je ako frontend k LM studio, kde sa napajas na API LLM studia, pozri workflow, ked ti neni jasny rozdiel medzi vscode a lm studiom.
vo vscode ma viacero pluginov, ktore robia rozne veci, niektore maju podporu na rozne MCP a pod...
potom mas fork vscode cisto pre aI a pod....
Problem je ze treba vediet aj promptovat, aby si dosiel k vysledku a nezamotal viac este...
jj, uz chapem. LM Studio som predtym videl len zo screenshotu a narychlo mi prisiel ako taky AI-optimized klon VSCode ale vcera som to nahodil a zistil ze je to nieco uplne ine kazdopadne ollama mi pride lepsia, nic som tam netunoval, len pustil out of the box a bezi mi to tak ci onak na servery, len som nahodil druhu instanciu na desktop a napojil na openwebui
vcera som sa hral trochu s continue pluginom do VSCode, co mi pride na upravy kodu celkom fajn