local LLM, AI, Vibe Coding

Chris

Hello Borci,

pouzivate niekto local LLM ? Ake mate skusenosti a rychlosti ?

Prihodim mojich 50cent:

Mac Studio M4 Max | 128GB Unified Memory

Kód: Vybrať všetko

Model                 Speed (tok/sec)   Tokens   Time to 1st Token
------------------------------------------------------------------
Glm-4.5-air.-mlx      26.43             1575     6.70 s
Glm-4.5-air.-mlx      26.65             1051     6.66 s
Glm-4.5-air           38.86             1504     5.96 s
Glm-4.5-air           38.86             1486     5.75 s
Qwen/qwen3-next-80b   63.10              917     4.04 s
Qwen/qwen3-next-80b   62.42             2066     2.11 s

cim si robil ten benchmark? ja som sa s tym zacal hrat tento tyzden, ale som obmedzeny RAMkou (32GB system RAM a 8GB RTX 3060Ti). MacBook som este neskusal, ale nemyslim si ze dosiahnem lepsie vysledky (M3 Pro, 18GB RAM)

pouzivam hlavne gwen3-coder-30b a ten mi ide pocitoo ide prekvapivo dobre - 10-15 tok/sec. ale oproti claude-4-sonnet je vystup taky horsi (claude je ale drahy). skusal som aj niektore extensiony pre VSCode, napr roocode, ten ma velmi pekny koncept, dava otazky, vytvori tasklist a snazi sa nakodovat celu appku, akurat ze mi vytvoril nieco co zaberalo 500 mega, spustit to slo az po 5 debugovaniach a a tak to nerobilo to co som ocakaval od neho.

ale tie rychlosti na gwen3-next mas paradne a podla popisu tvrdia ze to nie je ani narocnejsie ako gwen3-30b, ale predpokladam ze naorky na pamat sa takto optimalizovat nedaju, tak to nerozbehnem. a nie je to este na ollama a neskumal som ako rozbehnut huggingface

Chris

uplne jednoduche cez LM studio chat, das nejaky primitivny query a opises udaje

aha, som myslel ze je to nejaky benchmark ktory si spusti rozne LLM modely a zapise vysledky

s LM studio ako si spoko? v com je lepsi ako VSCode s nejakymi pluginmi? ja si prompty stale davam do OpenWebUI, ale nesnazim sa o uplny vibe coding ale skor pochopit veci a suvislosti, nech viem co to robi. lebo pri pokuse o vibe coding som skoncil s tisickami riadkami kodu o ktorych ani diva svina netusi co robia

Chris

LM studio je len kde spustas rozne LLM a zapnes API. Lepsia je ollama len tam to musis vediet naladit kolko vrstiev na gpu, kolko na cpu.
Hlavne to dava zmysel ak mas nejaky multichannel AMD EPYC , DDR4-5 ramky a fajnove RTX Blackwell alebo klasicke retail RTX...

VScode je ako frontend k LM studio, kde sa napajas na API LLM studia, pozri workflow, ked ti neni jasny rozdiel medzi vscode a lm studiom.

vo vscode ma viacero pluginov, ktore robia rozne veci, niektore maju podporu na rozne MCP a pod...
potom mas fork vscode cisto pre aI a pod....

Problem je ze treba vediet aj promptovat, aby si dosiel k vysledku a nezamotal viac este...

jj, uz chapem. LM Studio som predtym videl len zo screenshotu a narychlo mi prisiel ako taky AI-optimized klon VSCode ale vcera som to nahodil a zistil ze je to nieco uplne ine

kazdopadne ollama mi pride lepsia, nic som tam netunoval, len pustil out of the box a bezi mi to tak ci onak na servery, len som nahodil druhu instanciu na desktop a napojil na openwebui

vcera som sa hral trochu s continue pluginom do VSCode, co mi pride na upravy kodu celkom fajn

Chris

cool a ake mas cisla s akym HW ?

zoom

Trosicku ozivime topic. Mate nejaky pokrok a dalsie skusenosti s lokalnymi LLM (konkretnymi modelmi)? Co pouzivate na pokec/info, co sa osvedcilo na programovanie, pripadne agentic veci.

Po narastie cien RAM som radsej vybavil doma pocitace s 96GB RAM, nech sa mozem hrajkat trochu. Zistujem, ze je to take trochu hluche miesto co do velkosti modelov. Ked sa hybeme vo svete aspon Q6_K_XL quantizacie, idealne vsak Q8 ci F16, tak vela popularnych modelov je tak 30-70GB (gpt-oss-120b, glm-4.5-air, qwen3-next-80b-a3b-thinking, olmo-3-32b-think) alebo potom az uplne mimo 150-600GB (glm-4.6, Kimi-K2, MiniMax-M2, DeepSeek-R1 a ine).

Co do vykonu modely, s ktorymi sa najviac hram (5070 Ti 16GB, 96GB RAM, rovnaky vstupny text):

Kód: Vybrať všetko

gpt-oss-120b (F16):                     Thought for 50.60 seconds           7.03 tok/sec • 4647 tokens • 3.39s to first token
qwen3-next-80b-a3b-thinking (Q6_K_XL):  Thought for 1 minutes 36 seconds    5.57 tok/sec • 2467 tokens • 2.17s to first token
glm-4.5-air (Q4_K_XL):                  Thought for 1 minutes 47 seconds    3.96 tok/sec • 2203 tokens • 6.41s to first token
olmo-3-32b-think (BF16):                Thought for 28 minutes 45 seconds   0.73 tok/sec • 2617 tokens • 4.48s to first token

Netusim, preco je ten novy Olmo-3 nasobne pomalsi (6-10x pomalsi). Ale inak odpisuju k veci. Zrovna dnes som to znovu porovnaval a mozno na prvy pohlad by som prisudil Qwen3-Next malu vyhru - pacili sa mi odpovede, ktore obsahovali aj vyslovene "negativne" veci akoze toto nebude fungovat, takto nie, toto nie, toto nepomoze vobec, atd.
Navyse gpt-oss a qwen3-next v LM Studio aj pomenuvaju tie chaty v lavom stlpci. Male az vacsie plus.

Ale zaujimalo by ma, komu sa co osvedcilo na programovanie. Ked si citam internety, tak kazdy tyzden je to nejaka ina uplne prevratna vec. Ked nie qwen3-coder-30b, tak aquif-3.5-max-42b. A ked nie to, tak potom kwaipilot_kat-dev-72b, ale len do prichodu toho a tamtoho...

Pretaktovanie.sk

local LLM, AI, Vibe Coding

local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding