local LLM, AI, Vibe Coding

Sekcia o programovaní, programovacích jazykoch...
Používateľov profilový obrázok
Chris
Pokročilý používateľ
Pokročilý používateľ
Príspevky: 5397
Dátum registrácie: Pi 13. Jan, 2006, 02:00
Bydlisko: Bratislava

local LLM, AI, Vibe Coding

Príspevok od používateľa Chris »

Hello Borci,

pouzivate niekto local LLM ? Ake mate skusenosti a rychlosti ?

Prihodim mojich 50cent:

Mac Studio M4 Max | 128GB Unified Memory

Kód: Vybrať všetko

Model                 Speed (tok/sec)   Tokens   Time to 1st Token
------------------------------------------------------------------
Glm-4.5-air.-mlx      26.43             1575     6.70 s
Glm-4.5-air.-mlx      26.65             1051     6.66 s
Glm-4.5-air           38.86             1504     5.96 s
Glm-4.5-air           38.86             1486     5.75 s
Qwen/qwen3-next-80b   63.10              917     4.04 s
Qwen/qwen3-next-80b   62.42             2066     2.11 s
Naposledy upravil/-a Chris v St 01. Okt, 2025, 14:06, upravené celkom 1 krát.
Master of PaloAlto NGFWs, Cisco ASAs
Používateľov profilový obrázok
molnart
Sponzor fóra gold
Sponzor fóra gold
Príspevky: 7396
Dátum registrácie: Ut 19. Jún, 2012, 23:03
Bydlisko: Bratislava/Samorin

Re: local LLM, AI, Vibe Coding

Príspevok od používateľa molnart »

cim si robil ten benchmark? ja som sa s tym zacal hrat tento tyzden, ale som obmedzeny RAMkou (32GB system RAM a 8GB RTX 3060Ti). MacBook som este neskusal, ale nemyslim si ze dosiahnem lepsie vysledky (M3 Pro, 18GB RAM)

pouzivam hlavne gwen3-coder-30b a ten mi ide pocitoo ide prekvapivo dobre - 10-15 tok/sec. ale oproti claude-4-sonnet je vystup taky horsi (claude je ale drahy). skusal som aj niektore extensiony pre VSCode, napr roocode, ten ma velmi pekny koncept, dava otazky, vytvori tasklist a snazi sa nakodovat celu appku, akurat ze mi vytvoril nieco co zaberalo 500 mega, spustit to slo az po 5 debugovaniach a a tak to nerobilo to co som ocakaval od neho.

ale tie rychlosti na gwen3-next mas paradne a podla popisu tvrdia ze to nie je ani narocnejsie ako gwen3-30b, ale predpokladam ze naorky na pamat sa takto optimalizovat nedaju, tak to nerozbehnem. a nie je to este na ollama a neskumal som ako rozbehnut huggingface
Spoiler: ukázať
PC: CPU: Intel Core i5 12600K with Silentium Fortis 5 ARGB MB: MSI Tomahawk Z690 DDR4 RAM: 2x 16GB G.Skill Ripjaws V 4400-19 DDR4 GPU: GigaByte Eagle GeForce RTX 3060 Ti OC HDD: Samsung 970 1GB GB PSU: Corsair RMx (2018) 650W Case: Fractal Meshify 2 Compact Monitor: Philips 272B7QPJEB OS: Win 11 64-bit
Notebook: HP EliteBook 840 G6 Core i5 8265U, 16 GB RAM, 512 GB SSD
Server: HP Microserver Gen8 Xeon E3-1265Lv2, 16GB ECC DDR3 OS: PVE + OMV + OPNsense
Phone: Samsung Galaxy A52s
Tablet: iPad Pro 11 (2018)
Používateľov profilový obrázok
Chris
Pokročilý používateľ
Pokročilý používateľ
Príspevky: 5397
Dátum registrácie: Pi 13. Jan, 2006, 02:00
Bydlisko: Bratislava

Re: local LLM, AI, Vibe Coding

Príspevok od používateľa Chris »

uplne jednoduche cez LM studio chat, das nejaky primitivny query a opises udaje
Master of PaloAlto NGFWs, Cisco ASAs
Používateľov profilový obrázok
molnart
Sponzor fóra gold
Sponzor fóra gold
Príspevky: 7396
Dátum registrácie: Ut 19. Jún, 2012, 23:03
Bydlisko: Bratislava/Samorin

Re: local LLM, AI, Vibe Coding

Príspevok od používateľa molnart »

aha, som myslel ze je to nejaky benchmark ktory si spusti rozne LLM modely a zapise vysledky

s LM studio ako si spoko? v com je lepsi ako VSCode s nejakymi pluginmi? ja si prompty stale davam do OpenWebUI, ale nesnazim sa o uplny vibe coding ale skor pochopit veci a suvislosti, nech viem co to robi. lebo pri pokuse o vibe coding som skoncil s tisickami riadkami kodu o ktorych ani diva svina netusi co robia
Spoiler: ukázať
PC: CPU: Intel Core i5 12600K with Silentium Fortis 5 ARGB MB: MSI Tomahawk Z690 DDR4 RAM: 2x 16GB G.Skill Ripjaws V 4400-19 DDR4 GPU: GigaByte Eagle GeForce RTX 3060 Ti OC HDD: Samsung 970 1GB GB PSU: Corsair RMx (2018) 650W Case: Fractal Meshify 2 Compact Monitor: Philips 272B7QPJEB OS: Win 11 64-bit
Notebook: HP EliteBook 840 G6 Core i5 8265U, 16 GB RAM, 512 GB SSD
Server: HP Microserver Gen8 Xeon E3-1265Lv2, 16GB ECC DDR3 OS: PVE + OMV + OPNsense
Phone: Samsung Galaxy A52s
Tablet: iPad Pro 11 (2018)
Používateľov profilový obrázok
Chris
Pokročilý používateľ
Pokročilý používateľ
Príspevky: 5397
Dátum registrácie: Pi 13. Jan, 2006, 02:00
Bydlisko: Bratislava

Re: local LLM, AI, Vibe Coding

Príspevok od používateľa Chris »

LM studio je len kde spustas rozne LLM a zapnes API. Lepsia je ollama len tam to musis vediet naladit kolko vrstiev na gpu, kolko na cpu.
Hlavne to dava zmysel ak mas nejaky multichannel AMD EPYC , DDR4-5 ramky a fajnove RTX Blackwell alebo klasicke retail RTX...

VScode je ako frontend k LM studio, kde sa napajas na API LLM studia, pozri workflow, ked ti neni jasny rozdiel medzi vscode a lm studiom.

vo vscode ma viacero pluginov, ktore robia rozne veci, niektore maju podporu na rozne MCP a pod...
potom mas fork vscode cisto pre aI a pod....

Problem je ze treba vediet aj promptovat, aby si dosiel k vysledku a nezamotal viac este...
Master of PaloAlto NGFWs, Cisco ASAs
Používateľov profilový obrázok
molnart
Sponzor fóra gold
Sponzor fóra gold
Príspevky: 7396
Dátum registrácie: Ut 19. Jún, 2012, 23:03
Bydlisko: Bratislava/Samorin

Re: local LLM, AI, Vibe Coding

Príspevok od používateľa molnart »

jj, uz chapem. LM Studio som predtym videl len zo screenshotu a narychlo mi prisiel ako taky AI-optimized klon VSCode ale vcera som to nahodil a zistil ze je to nieco uplne ine :D kazdopadne ollama mi pride lepsia, nic som tam netunoval, len pustil out of the box a bezi mi to tak ci onak na servery, len som nahodil druhu instanciu na desktop a napojil na openwebui

vcera som sa hral trochu s continue pluginom do VSCode, co mi pride na upravy kodu celkom fajn
Spoiler: ukázať
PC: CPU: Intel Core i5 12600K with Silentium Fortis 5 ARGB MB: MSI Tomahawk Z690 DDR4 RAM: 2x 16GB G.Skill Ripjaws V 4400-19 DDR4 GPU: GigaByte Eagle GeForce RTX 3060 Ti OC HDD: Samsung 970 1GB GB PSU: Corsair RMx (2018) 650W Case: Fractal Meshify 2 Compact Monitor: Philips 272B7QPJEB OS: Win 11 64-bit
Notebook: HP EliteBook 840 G6 Core i5 8265U, 16 GB RAM, 512 GB SSD
Server: HP Microserver Gen8 Xeon E3-1265Lv2, 16GB ECC DDR3 OS: PVE + OMV + OPNsense
Phone: Samsung Galaxy A52s
Tablet: iPad Pro 11 (2018)
Používateľov profilový obrázok
Chris
Pokročilý používateľ
Pokročilý používateľ
Príspevky: 5397
Dátum registrácie: Pi 13. Jan, 2006, 02:00
Bydlisko: Bratislava

Re: local LLM, AI, Vibe Coding

Príspevok od používateľa Chris »

cool a ake mas cisla s akym HW ?
Master of PaloAlto NGFWs, Cisco ASAs
Používateľov profilový obrázok
zoom
Používateľ
Používateľ
Príspevky: 2848
Dátum registrácie: Št 16. Jún, 2005, 20:00
Bydlisko: Bratislava (42)

Re: local LLM, AI, Vibe Coding

Príspevok od používateľa zoom »

Trosicku ozivime topic. Mate nejaky pokrok a dalsie skusenosti s lokalnymi LLM (konkretnymi modelmi)? Co pouzivate na pokec/info, co sa osvedcilo na programovanie, pripadne agentic veci.

Po narastie cien RAM som radsej vybavil doma pocitace s 96GB RAM, nech sa mozem hrajkat trochu. Zistujem, ze je to take trochu hluche miesto co do velkosti modelov. Ked sa hybeme vo svete aspon Q6_K_XL quantizacie, idealne vsak Q8 ci F16, tak vela popularnych modelov je tak 30-70GB (gpt-oss-120b, glm-4.5-air, qwen3-next-80b-a3b-thinking, olmo-3-32b-think) alebo potom az uplne mimo 150-600GB (glm-4.6, Kimi-K2, MiniMax-M2, DeepSeek-R1 a ine).

Co do vykonu modely, s ktorymi sa najviac hram (5070 Ti 16GB, 96GB RAM, rovnaky vstupny text):

Kód: Vybrať všetko

gpt-oss-120b (F16):                     Thought for 50.60 seconds           7.03 tok/sec • 4647 tokens • 3.39s to first token
qwen3-next-80b-a3b-thinking (Q6_K_XL):  Thought for 1 minutes 36 seconds    5.57 tok/sec • 2467 tokens • 2.17s to first token
glm-4.5-air (Q4_K_XL):                  Thought for 1 minutes 47 seconds    3.96 tok/sec • 2203 tokens • 6.41s to first token
olmo-3-32b-think (BF16):                Thought for 28 minutes 45 seconds   0.73 tok/sec • 2617 tokens • 4.48s to first token
Netusim, preco je ten novy Olmo-3 nasobne pomalsi (6-10x pomalsi). Ale inak odpisuju k veci. Zrovna dnes som to znovu porovnaval a mozno na prvy pohlad by som prisudil Qwen3-Next malu vyhru - pacili sa mi odpovede, ktore obsahovali aj vyslovene "negativne" veci akoze toto nebude fungovat, takto nie, toto nie, toto nepomoze vobec, atd.
Navyse gpt-oss a qwen3-next v LM Studio aj pomenuvaju tie chaty v lavom stlpci. Male az vacsie plus.

Ale zaujimalo by ma, komu sa co osvedcilo na programovanie. Ked si citam internety, tak kazdy tyzden je to nejaka ina uplne prevratna vec. Ked nie qwen3-coder-30b, tak aquif-3.5-max-42b. A ked nie to, tak potom kwaipilot_kat-dev-72b, ale len do prichodu toho a tamtoho...
Používateľov profilový obrázok
zoom
Používateľ
Používateľ
Príspevky: 2848
Dátum registrácie: Št 16. Jún, 2005, 20:00
Bydlisko: Bratislava (42)

Re: local LLM, AI, Vibe Coding

Príspevok od používateľa zoom »

Ňo, topic sa prilis neozivil, ale pridam posledne skusenosti. Vymyslel som si taku jednoduchu ulohu na dve vety, ktora vyzaduje viac-krokovo uvazovat a preluskat sa k vysledku. Dost ma prekvapilo, ako mnoho velkych modelov vyslovene failuje na tomto a jednoducho sa zamota do seba. Je mi uplne jasne, ze nejakou jednou ulohou sa neda hodnotit cely LLM model, ale aj tak je to minimalne zaujimave kvoli relativnej jednoduchosti riesenia. LLM sa zamota 5x si hlasi tie iste veci, atd. Napriklad:
  • Cinske MiniMax-M2.1 a Qwen3 Next 80B rozmyslali 15 a 21 minut, nikam nedospeli, tak som ich radsej vypol.
  • Solar Open 100B a Olmo 3.1 32B zase 35 a 66 minut a zrusil som ich.
  • Hram sa este s plnohodnotnym GLM 4.7 - ten som zabudol vypnut, tak chudak srotil 145 minut k nicomu.
Naopak, prekvapili ma tieto tri a posledne dva su dovod tohto postu:
  • Gpt-oss 120B rozmyslal necele 2 minuty a vyrobil odpoved, aku som si predstavoval. Napriek roznym modelom, ktore ho prekonavaju v tom aj onom, je to imho stale taky fajn all-around model na pouzitie.
  • nVidia Nemotron 3 Nano 30B je maly model, ale odpoved dal dobru a na technicke veci/programy/skripty mi pride fajn. Naozaj taky sympaticky model pre mna a vzhladom na malu velkost aj rychly (u mna 2× rychlejsi nez gpt-oss).
  • Novy Qwen3 Coder Next 80B - nie thinking, ale dobra odpoved. Urceny na coding a z mojich slabych testov zatial spokojnost. Na "coding" pomerne velky model (80B) a s 256k context length.
Tie posledne dva celkom odporucam vyskusat. Inak GLM 4.7 zase podal pomerne dobru analyzu a refactoring PowerShell skriptu. Akurat teda...
Spoiler: ukázať
aiaiai.png
Na prezeranie priložených súborov nemáte dostatočné oprávnenia.
Používateľov profilový obrázok
molnart
Sponzor fóra gold
Sponzor fóra gold
Príspevky: 7396
Dátum registrácie: Ut 19. Jún, 2012, 23:03
Bydlisko: Bratislava/Samorin

Re: local LLM, AI, Vibe Coding

Príspevok od používateľa molnart »

no ano, necudujme sa ze ceny pamati su take ake su... ja som sa na tietho selfhosted modeli vykaslal, kupil si GLM/Z.AI predplatne a funguje na nom cez opencode. ak mam pocit ze to nezvlada tak to skusim cez Gemini. Anthropic mi pride brutalne drahy
Spoiler: ukázať
PC: CPU: Intel Core i5 12600K with Silentium Fortis 5 ARGB MB: MSI Tomahawk Z690 DDR4 RAM: 2x 16GB G.Skill Ripjaws V 4400-19 DDR4 GPU: GigaByte Eagle GeForce RTX 3060 Ti OC HDD: Samsung 970 1GB GB PSU: Corsair RMx (2018) 650W Case: Fractal Meshify 2 Compact Monitor: Philips 272B7QPJEB OS: Win 11 64-bit
Notebook: HP EliteBook 840 G6 Core i5 8265U, 16 GB RAM, 512 GB SSD
Server: HP Microserver Gen8 Xeon E3-1265Lv2, 16GB ECC DDR3 OS: PVE + OMV + OPNsense
Phone: Samsung Galaxy A52s
Tablet: iPad Pro 11 (2018)
Používateľov profilový obrázok
Chris
Pokročilý používateľ
Pokročilý používateľ
Príspevky: 5397
Dátum registrácie: Pi 13. Jan, 2006, 02:00
Bydlisko: Bratislava

Re: local LLM, AI, Vibe Coding

Príspevok od používateľa Chris »

zoom napísal: Po 09. Feb, 2026, 02:54 Ňo, topic sa prilis neozivil, ale pridam posledne skusenosti. Vymyslel som si taku jednoduchu ulohu na dve vety, ktora vyzaduje viac-krokovo uvazovat a preluskat sa k vysledku. Dost ma prekvapilo, ako mnoho velkych modelov vyslovene failuje na tomto a jednoducho sa zamota do seba. Je mi uplne jasne, ze nejakou jednou ulohou sa neda hodnotit cely LLM model, ale aj tak je to minimalne zaujimave kvoli relativnej jednoduchosti riesenia. LLM sa zamota 5x si hlasi tie iste veci, atd. Napriklad:
  • Cinske MiniMax-M2.1 a Qwen3 Next 80B rozmyslali 15 a 21 minut, nikam nedospeli, tak som ich radsej vypol.
  • Solar Open 100B a Olmo 3.1 32B zase 35 a 66 minut a zrusil som ich.
  • Hram sa este s plnohodnotnym GLM 4.7 - ten som zabudol vypnut, tak chudak srotil 145 minut k nicomu.
Naopak, prekvapili ma tieto tri a posledne dva su dovod tohto postu:
  • Gpt-oss 120B rozmyslal necele 2 minuty a vyrobil odpoved, aku som si predstavoval. Napriek roznym modelom, ktore ho prekonavaju v tom aj onom, je to imho stale taky fajn all-around model na pouzitie.
  • nVidia Nemotron 3 Nano 30B je maly model, ale odpoved dal dobru a na technicke veci/programy/skripty mi pride fajn. Naozaj taky sympaticky model pre mna a vzhladom na malu velkost aj rychly (u mna 2× rychlejsi nez gpt-oss).
  • Novy Qwen3 Coder Next 80B - nie thinking, ale dobra odpoved. Urceny na coding a z mojich slabych testov zatial spokojnost. Na "coding" pomerne velky model (80B) a s 256k context length.
Tie posledne dva celkom odporucam vyskusat. Inak GLM 4.7 zase podal pomerne dobru analyzu a refactoring PowerShell skriptu. Akurat teda...
Spoiler: ukázať
aiaiai.png
aky HW na to pouzivas a tps dosahujes ?
Master of PaloAlto NGFWs, Cisco ASAs
LordKJ
Sponzor fóra gold
Sponzor fóra gold
Príspevky: 8245
Dátum registrácie: Po 28. Feb, 2011, 11:49
Bydlisko: Bratislava

Re: local LLM, AI, Vibe Coding

Príspevok od používateľa LordKJ »

molnart napísal: Po 09. Feb, 2026, 10:53 no ano, necudujme sa ze ceny pamati su take ake su... ja som sa na tietho selfhosted modeli vykaslal, kupil si GLM/Z.AI predplatne a funguje na nom cez opencode. ak mam pocit ze to nezvlada tak to skusim cez Gemini. Anthropic mi pride brutalne drahy
anthropic je drahy ale claude max za 100$ je podla mna celkom dobra ponuka - pri tej cene by som sa mimo hobby uplne vykaslal na akekolvek lokalne modely

u nas je momentalne realita taka, ze 99% kodu je generovane LLM (opus4.5/4.6) a cela dev praca sa presunula na korigovanie agentov (1 az N naraz) a schvalovanie specifikacii... co je teda smutne ak niekoho bavilo prave to pisanie ale to uz je minulost
main: 9950X + Noctua NH-D15 G2, ASUS STRIX B650E-F, Kingston 64gb DDR5 6000 CL30, 7900 GRE Nitro+, 990 Pro 4TB, ASUS STRIX Aura RGB 1000W, Fractal North XL + 4x Noctua A14x25 G2
faugusztin
Moderátor
Moderátor
Príspevky: 15057
Dátum registrácie: Ut 26. Feb, 2008, 14:00
Bydlisko: Bratislava/Štúrovo

Re: local LLM, AI, Vibe Coding

Príspevok od používateľa faugusztin »

zoom napísal: Pi 12. Dec, 2025, 05:26 Ale zaujimalo by ma, komu sa co osvedcilo na programovanie. Ked si citam internety, tak kazdy tyzden je to nejaka ina uplne prevratna vec. Ked nie qwen3-coder-30b, tak aquif-3.5-max-42b. A ked nie to, tak potom kwaipilot_kat-dev-72b, ale len do prichodu toho a tamtoho...
Ja pustam CPU only a teda to vylucuje prakticky vsetky modely okrem qwen3-coder-30b. Ale ten ide celkom OK aj na CPU, podla typu CPU medzi 10-20t/s. Nakolko ja to pouzivam iba ako pomocku pre nahodne zaseknutia/problemy a nie ako autocomplete, tak aj takato rychlost je OK.
mp3turbo
Pokročilý používateľ
Pokročilý používateľ
Príspevky: 14040
Dátum registrácie: St 27. Apr, 2011, 11:16
Bydlisko: ta Blava, ňe ?

Re: local LLM, AI, Vibe Coding

Príspevok od používateľa mp3turbo »

>> u nas je momentalne realita taka, ze 99% kodu je generovane LLM (opus4.5/4.6) a cela dev praca sa presunula na korigovanie agentov

uz sa tesim, kedy takto budu fungovat dochtori ...
Som matematik... Vzrusuju ma cisla, napriklad 8300 na otackomeri alebo 2,15 baru z kompresora a este aj 1-12-5-8-3-10-6-7-2-11-4-9.
LordKJ
Sponzor fóra gold
Sponzor fóra gold
Príspevky: 8245
Dátum registrácie: Po 28. Feb, 2011, 11:49
Bydlisko: Bratislava

Re: local LLM, AI, Vibe Coding

Príspevok od používateľa LordKJ »

kedy takto budu fungovat dochtori neviem ale uz aj "elity" sw sceny akceptuju, ze buducnost je takato

to nie je vibe coding, musis vediet co robis inak narazis a ak vies co robis vie ta to extremne zrychlit (a to sa nebavim este o roznych integraciach a zlozitejsich flowoch)

toto je pekny blog od zakladatela hashicorpu / tvorcu terraformu
https://mitchellh.com/writing/my-ai-adoption-journey
main: 9950X + Noctua NH-D15 G2, ASUS STRIX B650E-F, Kingston 64gb DDR5 6000 CL30, 7900 GRE Nitro+, 990 Pro 4TB, ASUS STRIX Aura RGB 1000W, Fractal North XL + 4x Noctua A14x25 G2

Návrat na "Programovanie"