local LLM, AI, Vibe Coding

Chris

Hello Borci,

pouzivate niekto local LLM ? Ake mate skusenosti a rychlosti ?

Prihodim mojich 50cent:

Mac Studio M4 Max | 128GB Unified Memory

Kód: Vybrať všetko

Model                 Speed (tok/sec)   Tokens   Time to 1st Token
------------------------------------------------------------------
Glm-4.5-air.-mlx      26.43             1575     6.70 s
Glm-4.5-air.-mlx      26.65             1051     6.66 s
Glm-4.5-air           38.86             1504     5.96 s
Glm-4.5-air           38.86             1486     5.75 s
Qwen/qwen3-next-80b   63.10              917     4.04 s
Qwen/qwen3-next-80b   62.42             2066     2.11 s

cim si robil ten benchmark? ja som sa s tym zacal hrat tento tyzden, ale som obmedzeny RAMkou (32GB system RAM a 8GB RTX 3060Ti). MacBook som este neskusal, ale nemyslim si ze dosiahnem lepsie vysledky (M3 Pro, 18GB RAM)

pouzivam hlavne gwen3-coder-30b a ten mi ide pocitoo ide prekvapivo dobre - 10-15 tok/sec. ale oproti claude-4-sonnet je vystup taky horsi (claude je ale drahy). skusal som aj niektore extensiony pre VSCode, napr roocode, ten ma velmi pekny koncept, dava otazky, vytvori tasklist a snazi sa nakodovat celu appku, akurat ze mi vytvoril nieco co zaberalo 500 mega, spustit to slo az po 5 debugovaniach a a tak to nerobilo to co som ocakaval od neho.

ale tie rychlosti na gwen3-next mas paradne a podla popisu tvrdia ze to nie je ani narocnejsie ako gwen3-30b, ale predpokladam ze naorky na pamat sa takto optimalizovat nedaju, tak to nerozbehnem. a nie je to este na ollama a neskumal som ako rozbehnut huggingface

Chris

uplne jednoduche cez LM studio chat, das nejaky primitivny query a opises udaje

aha, som myslel ze je to nejaky benchmark ktory si spusti rozne LLM modely a zapise vysledky

s LM studio ako si spoko? v com je lepsi ako VSCode s nejakymi pluginmi? ja si prompty stale davam do OpenWebUI, ale nesnazim sa o uplny vibe coding ale skor pochopit veci a suvislosti, nech viem co to robi. lebo pri pokuse o vibe coding som skoncil s tisickami riadkami kodu o ktorych ani diva svina netusi co robia

Chris

LM studio je len kde spustas rozne LLM a zapnes API. Lepsia je ollama len tam to musis vediet naladit kolko vrstiev na gpu, kolko na cpu.
Hlavne to dava zmysel ak mas nejaky multichannel AMD EPYC , DDR4-5 ramky a fajnove RTX Blackwell alebo klasicke retail RTX...

VScode je ako frontend k LM studio, kde sa napajas na API LLM studia, pozri workflow, ked ti neni jasny rozdiel medzi vscode a lm studiom.

vo vscode ma viacero pluginov, ktore robia rozne veci, niektore maju podporu na rozne MCP a pod...
potom mas fork vscode cisto pre aI a pod....

Problem je ze treba vediet aj promptovat, aby si dosiel k vysledku a nezamotal viac este...

jj, uz chapem. LM Studio som predtym videl len zo screenshotu a narychlo mi prisiel ako taky AI-optimized klon VSCode ale vcera som to nahodil a zistil ze je to nieco uplne ine

kazdopadne ollama mi pride lepsia, nic som tam netunoval, len pustil out of the box a bezi mi to tak ci onak na servery, len som nahodil druhu instanciu na desktop a napojil na openwebui

vcera som sa hral trochu s continue pluginom do VSCode, co mi pride na upravy kodu celkom fajn

Chris

cool a ake mas cisla s akym HW ?

zoom

Trosicku ozivime topic. Mate nejaky pokrok a dalsie skusenosti s lokalnymi LLM (konkretnymi modelmi)? Co pouzivate na pokec/info, co sa osvedcilo na programovanie, pripadne agentic veci.

Po narastie cien RAM som radsej vybavil doma pocitace s 96GB RAM, nech sa mozem hrajkat trochu. Zistujem, ze je to take trochu hluche miesto co do velkosti modelov. Ked sa hybeme vo svete aspon Q6_K_XL quantizacie, idealne vsak Q8 ci F16, tak vela popularnych modelov je tak 30-70GB (gpt-oss-120b, glm-4.5-air, qwen3-next-80b-a3b-thinking, olmo-3-32b-think) alebo potom az uplne mimo 150-600GB (glm-4.6, Kimi-K2, MiniMax-M2, DeepSeek-R1 a ine).

Co do vykonu modely, s ktorymi sa najviac hram (5070 Ti 16GB, 96GB RAM, rovnaky vstupny text):

Kód: Vybrať všetko

gpt-oss-120b (F16):                     Thought for 50.60 seconds           7.03 tok/sec • 4647 tokens • 3.39s to first token
qwen3-next-80b-a3b-thinking (Q6_K_XL):  Thought for 1 minutes 36 seconds    5.57 tok/sec • 2467 tokens • 2.17s to first token
glm-4.5-air (Q4_K_XL):                  Thought for 1 minutes 47 seconds    3.96 tok/sec • 2203 tokens • 6.41s to first token
olmo-3-32b-think (BF16):                Thought for 28 minutes 45 seconds   0.73 tok/sec • 2617 tokens • 4.48s to first token

Netusim, preco je ten novy Olmo-3 nasobne pomalsi (6-10x pomalsi). Ale inak odpisuju k veci. Zrovna dnes som to znovu porovnaval a mozno na prvy pohlad by som prisudil Qwen3-Next malu vyhru - pacili sa mi odpovede, ktore obsahovali aj vyslovene "negativne" veci akoze toto nebude fungovat, takto nie, toto nie, toto nepomoze vobec, atd.
Navyse gpt-oss a qwen3-next v LM Studio aj pomenuvaju tie chaty v lavom stlpci. Male az vacsie plus.

Ale zaujimalo by ma, komu sa co osvedcilo na programovanie. Ked si citam internety, tak kazdy tyzden je to nejaka ina uplne prevratna vec. Ked nie qwen3-coder-30b, tak aquif-3.5-max-42b. A ked nie to, tak potom kwaipilot_kat-dev-72b, ale len do prichodu toho a tamtoho...

zoom

Ňo, topic sa prilis neozivil, ale pridam posledne skusenosti. Vymyslel som si taku jednoduchu ulohu na dve vety, ktora vyzaduje viac-krokovo uvazovat a preluskat sa k vysledku. Dost ma prekvapilo, ako mnoho velkych modelov vyslovene failuje na tomto a jednoducho sa zamota do seba. Je mi uplne jasne, ze nejakou jednou ulohou sa neda hodnotit cely LLM model, ale aj tak je to minimalne zaujimave kvoli relativnej jednoduchosti riesenia. LLM sa zamota 5x si hlasi tie iste veci, atd. Napriklad:

Cinske MiniMax-M2.1 a Qwen3 Next 80B rozmyslali 15 a 21 minut, nikam nedospeli, tak som ich radsej vypol.
Solar Open 100B a Olmo 3.1 32B zase 35 a 66 minut a zrusil som ich.
Hram sa este s plnohodnotnym GLM 4.7 - ten som zabudol vypnut, tak chudak srotil 145 minut k nicomu.

Naopak, prekvapili ma tieto tri a posledne dva su dovod tohto postu:

Gpt-oss 120B rozmyslal necele 2 minuty a vyrobil odpoved, aku som si predstavoval. Napriek roznym modelom, ktore ho prekonavaju v tom aj onom, je to imho stale taky fajn all-around model na pouzitie.
nVidia Nemotron 3 Nano 30B je maly model, ale odpoved dal dobru a na technicke veci/programy/skripty mi pride fajn. Naozaj taky sympaticky model pre mna a vzhladom na malu velkost aj rychly (u mna 2× rychlejsi nez gpt-oss).
Novy Qwen3 Coder Next 80B - nie thinking, ale dobra odpoved. Urceny na coding a z mojich slabych testov zatial spokojnost. Na "coding" pomerne velky model (80B) a s 256k context length.

Tie posledne dva celkom odporucam vyskusat. Inak GLM 4.7 zase podal pomerne dobru analyzu a refactoring PowerShell skriptu. Akurat teda...

Spoiler: ukázať

no ano, necudujme sa ze ceny pamati su take ake su... ja som sa na tietho selfhosted modeli vykaslal, kupil si GLM/Z.AI predplatne a funguje na nom cez opencode. ak mam pocit ze to nezvlada tak to skusim cez Gemini. Anthropic mi pride brutalne drahy

Chris

zoom napísal: Po 09. Feb, 2026, 02:54 Ňo, topic sa prilis neozivil, ale pridam posledne skusenosti. Vymyslel som si taku jednoduchu ulohu na dve vety, ktora vyzaduje viac-krokovo uvazovat a preluskat sa k vysledku. Dost ma prekvapilo, ako mnoho velkych modelov vyslovene failuje na tomto a jednoducho sa zamota do seba. Je mi uplne jasne, ze nejakou jednou ulohou sa neda hodnotit cely LLM model, ale aj tak je to minimalne zaujimave kvoli relativnej jednoduchosti riesenia. LLM sa zamota 5x si hlasi tie iste veci, atd. Napriklad:
Cinske MiniMax-M2.1 a Qwen3 Next 80B rozmyslali 15 a 21 minut, nikam nedospeli, tak som ich radsej vypol.

Solar Open 100B a Olmo 3.1 32B zase 35 a 66 minut a zrusil som ich.

Hram sa este s plnohodnotnym GLM 4.7 - ten som zabudol vypnut, tak chudak srotil 145 minut k nicomu.
Naopak, prekvapili ma tieto tri a posledne dva su dovod tohto postu:
Gpt-oss 120B rozmyslal necele 2 minuty a vyrobil odpoved, aku som si predstavoval. Napriek roznym modelom, ktore ho prekonavaju v tom aj onom, je to imho stale taky fajn all-around model na pouzitie.

nVidia Nemotron 3 Nano 30B je maly model, ale odpoved dal dobru a na technicke veci/programy/skripty mi pride fajn. Naozaj taky sympaticky model pre mna a vzhladom na malu velkost aj rychly (u mna 2× rychlejsi nez gpt-oss).

Novy Qwen3 Coder Next 80B - nie thinking, ale dobra odpoved. Urceny na coding a z mojich slabych testov zatial spokojnost. Na "coding" pomerne velky model (80B) a s 256k context length.
Tie posledne dva celkom odporucam vyskusat. Inak GLM 4.7 zase podal pomerne dobru analyzu a refactoring PowerShell skriptu. Akurat teda...
Spoiler: ukázať
aiaiai.png

aky HW na to pouzivas a tps dosahujes ?

molnart napísal: Po 09. Feb, 2026, 10:53 no ano, necudujme sa ze ceny pamati su take ake su... ja som sa na tietho selfhosted modeli vykaslal, kupil si GLM/Z.AI predplatne a funguje na nom cez opencode. ak mam pocit ze to nezvlada tak to skusim cez Gemini. Anthropic mi pride brutalne drahy

anthropic je drahy ale claude max za 100$ je podla mna celkom dobra ponuka - pri tej cene by som sa mimo hobby uplne vykaslal na akekolvek lokalne modely

u nas je momentalne realita taka, ze 99% kodu je generovane LLM (opus4.5/4.6) a cela dev praca sa presunula na korigovanie agentov (1 az N naraz) a schvalovanie specifikacii... co je teda smutne ak niekoho bavilo prave to pisanie ale to uz je minulost

zoom napísal: Pi 12. Dec, 2025, 05:26 Ale zaujimalo by ma, komu sa co osvedcilo na programovanie. Ked si citam internety, tak kazdy tyzden je to nejaka ina uplne prevratna vec. Ked nie qwen3-coder-30b, tak aquif-3.5-max-42b. A ked nie to, tak potom kwaipilot_kat-dev-72b, ale len do prichodu toho a tamtoho...

Ja pustam CPU only a teda to vylucuje prakticky vsetky modely okrem qwen3-coder-30b. Ale ten ide celkom OK aj na CPU, podla typu CPU medzi 10-20t/s. Nakolko ja to pouzivam iba ako pomocku pre nahodne zaseknutia/problemy a nie ako autocomplete, tak aj takato rychlost je OK.

mp3turbo

>> u nas je momentalne realita taka, ze 99% kodu je generovane LLM (opus4.5/4.6) a cela dev praca sa presunula na korigovanie agentov

uz sa tesim, kedy takto budu fungovat dochtori ...

kedy takto budu fungovat dochtori neviem ale uz aj "elity" sw sceny akceptuju, ze buducnost je takato

to nie je vibe coding, musis vediet co robis inak narazis a ak vies co robis vie ta to extremne zrychlit (a to sa nebavim este o roznych integraciach a zlozitejsich flowoch)

toto je pekny blog od zakladatela hashicorpu / tvorcu terraformu
https://mitchellh.com/writing/my-ai-adoption-journey

Pretaktovanie.sk

local LLM, AI, Vibe Coding

local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding