local LLM, AI, Vibe Coding

Sekcia o programovaní, programovacích jazykoch...
Používateľov profilový obrázok
Chris
Pokročilý používateľ
Pokročilý používateľ
Príspevky: 5385
Dátum registrácie: Pi 13. Jan, 2006, 02:00
Bydlisko: Bratislava

local LLM, AI, Vibe Coding

Príspevok od používateľa Chris »

Hello Borci,

pouzivate niekto local LLM ? Ake mate skusenosti a rychlosti ?

Prihodim mojich 50cent:

Mac Studio M4 Max | 128GB Unified Memory

Kód: Vybrať všetko

Model                 Speed (tok/sec)   Tokens   Time to 1st Token
------------------------------------------------------------------
Glm-4.5-air.-mlx      26.43             1575     6.70 s
Glm-4.5-air.-mlx      26.65             1051     6.66 s
Glm-4.5-air           38.86             1504     5.96 s
Glm-4.5-air           38.86             1486     5.75 s
Qwen/qwen3-next-80b   63.10              917     4.04 s
Qwen/qwen3-next-80b   62.42             2066     2.11 s
Naposledy upravil/-a Chris v St 01. Okt, 2025, 14:06, upravené celkom 1 krát.
Master of PaloAlto NGFWs, Cisco ASAs
Používateľov profilový obrázok
molnart
Sponzor fóra gold
Sponzor fóra gold
Príspevky: 7335
Dátum registrácie: Ut 19. Jún, 2012, 23:03
Bydlisko: Bratislava/Samorin

Re: local LLM, AI, Vibe Coding

Príspevok od používateľa molnart »

cim si robil ten benchmark? ja som sa s tym zacal hrat tento tyzden, ale som obmedzeny RAMkou (32GB system RAM a 8GB RTX 3060Ti). MacBook som este neskusal, ale nemyslim si ze dosiahnem lepsie vysledky (M3 Pro, 18GB RAM)

pouzivam hlavne gwen3-coder-30b a ten mi ide pocitoo ide prekvapivo dobre - 10-15 tok/sec. ale oproti claude-4-sonnet je vystup taky horsi (claude je ale drahy). skusal som aj niektore extensiony pre VSCode, napr roocode, ten ma velmi pekny koncept, dava otazky, vytvori tasklist a snazi sa nakodovat celu appku, akurat ze mi vytvoril nieco co zaberalo 500 mega, spustit to slo az po 5 debugovaniach a a tak to nerobilo to co som ocakaval od neho.

ale tie rychlosti na gwen3-next mas paradne a podla popisu tvrdia ze to nie je ani narocnejsie ako gwen3-30b, ale predpokladam ze naorky na pamat sa takto optimalizovat nedaju, tak to nerozbehnem. a nie je to este na ollama a neskumal som ako rozbehnut huggingface
Spoiler: ukázať
PC: CPU: Intel Core i5 12600K with Silentium Fortis 5 ARGB MB: MSI Tomahawk Z690 DDR4 RAM: 2x 16GB G.Skill Ripjaws V 4400-19 DDR4 GPU: GigaByte Eagle GeForce RTX 3060 Ti OC HDD: Samsung 970 1GB GB PSU: Corsair RMx (2018) 650W Case: Fractal Meshify 2 Compact Monitor: Philips 272B7QPJEB OS: Win 11 64-bit
Notebook: HP EliteBook 840 G6 Core i5 8265U, 16 GB RAM, 512 GB SSD
Server: HP Microserver Gen8 Xeon E3-1265Lv2, 16GB ECC DDR3 OS: PVE + OMV + OPNsense
Phone: Samsung Galaxy A52s
Tablet: iPad Pro 11 (2018)
Používateľov profilový obrázok
Chris
Pokročilý používateľ
Pokročilý používateľ
Príspevky: 5385
Dátum registrácie: Pi 13. Jan, 2006, 02:00
Bydlisko: Bratislava

Re: local LLM, AI, Vibe Coding

Príspevok od používateľa Chris »

uplne jednoduche cez LM studio chat, das nejaky primitivny query a opises udaje
Master of PaloAlto NGFWs, Cisco ASAs
Používateľov profilový obrázok
molnart
Sponzor fóra gold
Sponzor fóra gold
Príspevky: 7335
Dátum registrácie: Ut 19. Jún, 2012, 23:03
Bydlisko: Bratislava/Samorin

Re: local LLM, AI, Vibe Coding

Príspevok od používateľa molnart »

aha, som myslel ze je to nejaky benchmark ktory si spusti rozne LLM modely a zapise vysledky

s LM studio ako si spoko? v com je lepsi ako VSCode s nejakymi pluginmi? ja si prompty stale davam do OpenWebUI, ale nesnazim sa o uplny vibe coding ale skor pochopit veci a suvislosti, nech viem co to robi. lebo pri pokuse o vibe coding som skoncil s tisickami riadkami kodu o ktorych ani diva svina netusi co robia
Spoiler: ukázať
PC: CPU: Intel Core i5 12600K with Silentium Fortis 5 ARGB MB: MSI Tomahawk Z690 DDR4 RAM: 2x 16GB G.Skill Ripjaws V 4400-19 DDR4 GPU: GigaByte Eagle GeForce RTX 3060 Ti OC HDD: Samsung 970 1GB GB PSU: Corsair RMx (2018) 650W Case: Fractal Meshify 2 Compact Monitor: Philips 272B7QPJEB OS: Win 11 64-bit
Notebook: HP EliteBook 840 G6 Core i5 8265U, 16 GB RAM, 512 GB SSD
Server: HP Microserver Gen8 Xeon E3-1265Lv2, 16GB ECC DDR3 OS: PVE + OMV + OPNsense
Phone: Samsung Galaxy A52s
Tablet: iPad Pro 11 (2018)
Používateľov profilový obrázok
Chris
Pokročilý používateľ
Pokročilý používateľ
Príspevky: 5385
Dátum registrácie: Pi 13. Jan, 2006, 02:00
Bydlisko: Bratislava

Re: local LLM, AI, Vibe Coding

Príspevok od používateľa Chris »

LM studio je len kde spustas rozne LLM a zapnes API. Lepsia je ollama len tam to musis vediet naladit kolko vrstiev na gpu, kolko na cpu.
Hlavne to dava zmysel ak mas nejaky multichannel AMD EPYC , DDR4-5 ramky a fajnove RTX Blackwell alebo klasicke retail RTX...

VScode je ako frontend k LM studio, kde sa napajas na API LLM studia, pozri workflow, ked ti neni jasny rozdiel medzi vscode a lm studiom.

vo vscode ma viacero pluginov, ktore robia rozne veci, niektore maju podporu na rozne MCP a pod...
potom mas fork vscode cisto pre aI a pod....

Problem je ze treba vediet aj promptovat, aby si dosiel k vysledku a nezamotal viac este...
Master of PaloAlto NGFWs, Cisco ASAs
Používateľov profilový obrázok
molnart
Sponzor fóra gold
Sponzor fóra gold
Príspevky: 7335
Dátum registrácie: Ut 19. Jún, 2012, 23:03
Bydlisko: Bratislava/Samorin

Re: local LLM, AI, Vibe Coding

Príspevok od používateľa molnart »

jj, uz chapem. LM Studio som predtym videl len zo screenshotu a narychlo mi prisiel ako taky AI-optimized klon VSCode ale vcera som to nahodil a zistil ze je to nieco uplne ine :D kazdopadne ollama mi pride lepsia, nic som tam netunoval, len pustil out of the box a bezi mi to tak ci onak na servery, len som nahodil druhu instanciu na desktop a napojil na openwebui

vcera som sa hral trochu s continue pluginom do VSCode, co mi pride na upravy kodu celkom fajn
Spoiler: ukázať
PC: CPU: Intel Core i5 12600K with Silentium Fortis 5 ARGB MB: MSI Tomahawk Z690 DDR4 RAM: 2x 16GB G.Skill Ripjaws V 4400-19 DDR4 GPU: GigaByte Eagle GeForce RTX 3060 Ti OC HDD: Samsung 970 1GB GB PSU: Corsair RMx (2018) 650W Case: Fractal Meshify 2 Compact Monitor: Philips 272B7QPJEB OS: Win 11 64-bit
Notebook: HP EliteBook 840 G6 Core i5 8265U, 16 GB RAM, 512 GB SSD
Server: HP Microserver Gen8 Xeon E3-1265Lv2, 16GB ECC DDR3 OS: PVE + OMV + OPNsense
Phone: Samsung Galaxy A52s
Tablet: iPad Pro 11 (2018)
Používateľov profilový obrázok
Chris
Pokročilý používateľ
Pokročilý používateľ
Príspevky: 5385
Dátum registrácie: Pi 13. Jan, 2006, 02:00
Bydlisko: Bratislava

Re: local LLM, AI, Vibe Coding

Príspevok od používateľa Chris »

cool a ake mas cisla s akym HW ?
Master of PaloAlto NGFWs, Cisco ASAs
Používateľov profilový obrázok
zoom
Používateľ
Používateľ
Príspevky: 2804
Dátum registrácie: Št 16. Jún, 2005, 20:00
Bydlisko: Bratislava (41)

Re: local LLM, AI, Vibe Coding

Príspevok od používateľa zoom »

Trosicku ozivime topic. Mate nejaky pokrok a dalsie skusenosti s lokalnymi LLM (konkretnymi modelmi)? Co pouzivate na pokec/info, co sa osvedcilo na programovanie, pripadne agentic veci.

Po narastie cien RAM som radsej vybavil doma pocitace s 96GB RAM, nech sa mozem hrajkat trochu. Zistujem, ze je to take trochu hluche miesto co do velkosti modelov. Ked sa hybeme vo svete aspon Q6_K_XL quantizacie, idealne vsak Q8 ci F16, tak vela popularnych modelov je tak 30-70GB (gpt-oss-120b, glm-4.5-air, qwen3-next-80b-a3b-thinking, olmo-3-32b-think) alebo potom az uplne mimo 150-600GB (glm-4.6, Kimi-K2, MiniMax-M2, DeepSeek-R1 a ine).

Co do vykonu modely, s ktorymi sa najviac hram (5070 Ti 16GB, 96GB RAM, rovnaky vstupny text):

Kód: Vybrať všetko

gpt-oss-120b (F16):                     Thought for 50.60 seconds           7.03 tok/sec • 4647 tokens • 3.39s to first token
qwen3-next-80b-a3b-thinking (Q6_K_XL):  Thought for 1 minutes 36 seconds    5.57 tok/sec • 2467 tokens • 2.17s to first token
glm-4.5-air (Q4_K_XL):                  Thought for 1 minutes 47 seconds    3.96 tok/sec • 2203 tokens • 6.41s to first token
olmo-3-32b-think (BF16):                Thought for 28 minutes 45 seconds   0.73 tok/sec • 2617 tokens • 4.48s to first token
Netusim, preco je ten novy Olmo-3 nasobne pomalsi (6-10x pomalsi). Ale inak odpisuju k veci. Zrovna dnes som to znovu porovnaval a mozno na prvy pohlad by som prisudil Qwen3-Next malu vyhru - pacili sa mi odpovede, ktore obsahovali aj vyslovene "negativne" veci akoze toto nebude fungovat, takto nie, toto nie, toto nepomoze vobec, atd.
Navyse gpt-oss a qwen3-next v LM Studio aj pomenuvaju tie chaty v lavom stlpci. Male az vacsie plus.

Ale zaujimalo by ma, komu sa co osvedcilo na programovanie. Ked si citam internety, tak kazdy tyzden je to nejaka ina uplne prevratna vec. Ked nie qwen3-coder-30b, tak aquif-3.5-max-42b. A ked nie to, tak potom kwaipilot_kat-dev-72b, ale len do prichodu toho a tamtoho...

Návrat na "Programovanie"