local LLM, AI, Vibe Coding

ako pise @LordKJ , aj u nas sa robi 80% kodu uz len cez Claude. tych 20% je kolega, ktory odmieta zmenu, ale je taky dobry, ze to AI nepotrebuje

ale zas nejake konverzie Figmy robi aj on, no Vue cez Claude je unho no-go.

Je ale naozaj potrebne rozlisovat mediora/seniora, ktory zada presnu specifikaciu a ladi ju kym s nou nie je spokojny a az nasledne pusta code a vibe-coding nejakeho SEOckara, ktory netusi co ten kod robi na pozadi, netusi, preco API kluc pre OAuth nemoze mat v HTML len tak vlepeny, netusi o com je zakladna sanitizacia inputov ani nic .. proste spravil appku za 3 hodiny, mne vynada ze co mne na tom trvalo 8 a je spokojny. Potom mu to ja "hacknem" (rozumej pochopim diery v jeho kode a ukazem mu 5 sposobov ako mu pokazit radost) a s opravovanim je na 12h. Mam kopec znamych, ktori z nicoho boli "klikaci" sablon na WP, neskor sa vyspeficikovali na Elementor alebo Bricks alebo Oxygen a teraz s AIckom su machri, ze lepia weby cez noc kym spia cez Claude a Astro, no layout sa rozpada, appka ma 4MB skriptov a pod.

vela je aj o tom ci sa zdiela knowledge (t.j. neopakuju sa potom rovnake chyby, code style v ramci celej codebase), su nasetupovane AGENTS.md a podobne...

Pisanie specifikacie - resp. "dialog" s agentom ohladom specky je najdolezitejsi. Tam sa vysvetli drviva vacsina problemov a potom uz samotna implementacia moze bezat v pozadi kym clovek riesi nieco ine. Len sa budem opakovat na to aby ta specka davala zmysel musi ten clovek vediet co od toho chce a mat prehlad o tom co je este OK a co uz nie. Mam uz kolegov co zacali pouzivat speech-to-text lebo sa im nechce pisat

Zaujimave veci to dokaze napr. ked tomu date pristupy k roznym datovym zdrojom. Napr. agent, ktory sa spusti pri incidente a pozrie sa na posledne releases, codebase, logy, apm a ma za par minut prvy sumar problemu (a pripadne aj fix) zatial co on call clovek este len startuje pc...

zoom

Chris napísal: Po 09. Feb, 2026, 12:55aky HW na to pouzivas a tps dosahujes ?

Pouzivam to na mojom stroji, ako som pisal predtym, tj. 5070 Ti 16GB, 96GB RAM. Rychlosti su rovnake ako v tabulke predtym. Ten gpt-oss 120B ide tych 7, obcas 9 tps. Nemotron 3 Nano da 14 tps (90-100% GPU util). Qwen3 Coder Next 80B da nieco cez 5 tps (~50% GPU util). Tych 10-15 tps je pre mna taky pain threshold. Nepouzivam to na interaktivne doplnanie kodu alebo co, nie som programator. Som taky glorifikovany indicky zliepac kodu/skriptov - vacsinou PowerShell, obcas som zabrdol aj do T-SQL. Preto mi staci take jednoduche pouzitie, kde nepotrebujem navrhovat cele aplikacie. Skor napady, logicke otazky, obcas code review a tak. 80% zvedavost, 20% realne pouzitie.

Ten GLM 4.7 s 200-230GB RAM (podla context window) bezal na pracovnej stanici, co tu prave mam. Tam je vsak nejake stare Quadro, takze je to skor graficky decelerator a cele to slo tak <1 tps. Dost nepouzitelne, ale zaujimalo ma, ako sa s tym bude robit.

Inak to porovnanie s WP je take akuratne. Vibe coding je dnesne "programovanie" web stranok vo FrontPage ci este lepsie vo Worde (ekvivalent lepsieho a horsieho LLM). Ten, kto nevie nic alebo malo, tak ma v rukach silny nastroj. Len s tym nemoze robit bez rozmyslu vsetko (= celofiremna enterprise stranka vo FrontPage).

Na druhu stranu, poznam realny priklad, kde sa custom vnutropodnikovy system nedal pouzivat poriadne cez VPN. Ked som to riesil, sniffoval, databazoval, tak som zistil, ze je to (ludmi) napisane tak, ze pri scrollovani tabulky v okne sa jednoducho pri kazdom posune znovu a znovu dopytuje databaza. Nie ze si vylistujem napriklad zoznam v sklade a to sa rozparsuje do okna na viac stranok, ale kazdym posunom v tabulke sa nacitavali dalsie a dalsie hodnoty (aj tie, co uz boli predtym nacitane)... realne to robilo traffic radovo v MB/s. Tipujem, ze to by sa s lepsim LLM nestalo.

Chris

aha, tak to mas dost biedne vystupy.

s M4Max to ide 10x lepsie, este rozmyslam ci s tymito to nepojde dobre, ked to je za 2.7k a 128GB vRAM https://www.computeruniverse.net/de/p/1 ... id=1306233

mp3turbo napísal: Po 09. Feb, 2026, 18:55 uz sa tesim, kedy takto budu fungovat dochtori ...

Dufam, ze coskoro.

Podľa tohto ide model gpt-oss-120b MXFP4 cca 45t/s out of the box bez ladenia:
https://www.servethehome.com/framework- ... ix-halo/4/

zoom

No tak urcite, ze to ide lepsie, kedze gayMac pouziva unifieeeeeed RAM/VRAM, cize sa to chova, ako keby si to akceleroval s grafikou so <128GB VRAM. Vo vseobecnosti je to kravina, ale zrovna pri tomto use-case to hodne pomoze. Nevyhoda potom je, ze musis "pracovat" na Macu a s macOS. Takze v pripade AI som medzi 16GB VRAM chudobou a zvysok sa offloaduje na pomale CPU.

Na rovnaky bandwagon nastupilo aj Strix Point od AMD, ale ti to robia vyslovene kvoli AI. Jednoducho GPU je king (10-15x rychlejsia nez CPU v tomto) a GPU s vela VRAM je vacsi king nez GPU s malo VRAM. Nic ine tam nepomaha. Ani NPU v novych CPU nie su na toto pouzitelne a takmer nic ich nepodporuje.

Mat taku krabicku na hranie s AI je sice pekne, ale nie za 2700,-€. To si radsej kupim RTX 5090 s horiacimi konektormi a vyuzijem ju aj na hranie. Ono do buducna by som na programovacie veci ocakaval skor mensie modely. Ked sa s LLM chcem porozpravat o svete, tak je samozrejme potrebne, aby mal kopec informacii o vsetkom a daval si dokopy suvislosti (viac ci menej uspesne). Ale LLM cisto na algoritmy a konkretny programovaci jazyk asi nemusi vediet ake je zlozenie klobasy, kolko sa dozivaju tucniaky a preco hurikany neprejdu cez rovnik.

Chris napísal: Ut 10. Feb, 2026, 15:50 aha, tak to mas dost biedne vystupy.

s M4Max to ide 10x lepsie, este rozmyslam ci s tymito to nepojde dobre, ked to je za 2.7k a 128GB vRAM https://www.computeruniverse.net/de/p/1 ... id=1306233

ak mi napises, co mam kde spravit, tak mozem testnut, aj ked mam len 64GB, ale CPU by malo byt rovnako limitovane

Chris

@zoom : s tebou sa musi srada rozpravat, na jednoduchu otazku si vymyslis litanie, ktore vyhovuju tvojmu svetu.GayMac bla bla , oni to spravili zamerne a ide to out of box s 55tps, teda 10x rychlejsie ako tebe na zlepenci btw. Po ladeni mozno este rychlejsie.

@lepermessiah super, dakujem. Napr. uplne easy, stiahni LMstudio a qwen3-coder-next-gguf Q4_K_M model s 48,5GB a daj mu napisat daky jednoduchy script, ze kolko ti vypluje

Takže v LMstudio ukazuje aj rýchlosť? Lebo som chcel pre srandu vyskúšať ako to ide na 9070XT v porovnaní s tou 5070Ti, stiahol Ollama cez AMD ovládače a tam mi rýchlosť neukázalo. Akurát že ja môžem vyskúšať len menšie modely kvôli malej RAM.

Chris

jo, dole pod poslednou odpovedou

OK, ja asi nebudem dobra vzorka na toto

okrem toho, ze vlastne 2 tyzdne bojujem s tym, aby mi aspon nejako fungoval OS na tom uzasnom laptope, tak pocas generovania to vyuzivalo GPU na 10% a CPU na 38% v priemere, cize bude asi nie idealne porieseny environment pre beh LLM. Videl som, ze sa riesia nejake ROCm a neviem co pre AMD GPU ale mna to akosi obchadza, zatial som vo faze, aby mi aspon monitor zaplo ked pripojim kabel

Vysledky viac ako smiesne .. 5.53 tok/sec | 1860 tokens | 13.17s (a to som si vypol prehliadace a Electron appky, aby mi to zralo menej RAM, no ten model mi v RAM berie len 20GB, co je asi dost malo)

EDIT: ked som dal na GPU Offload zo 7 na 25, tak mi GPU zataz stupla na 25%, ale .. 6.59 tok/sec | 1945 tokens | 8.66s. Teda predpokladam, ze ja to CPU/GPU budem mat uplne zle poriesene, ale s tym Strix Halo je peklo cokolvek rozchodit, polka veci v tom notebooku nefunguje ani na predinstalovanom Ubuntu. To by sa na Inteli nestalo.

Chris

pockat ty to mas 395+ max ai v laptope ? ja ze tu HP Workstation

ano, je tam TDP namiesto 120W "len" 80W, ale aspon pre predstavu to mohlo nieco dat. GLM 4.7 mi ide len 60 t/s, proste u mna je nieco naprd

inak nemali tie alternativy ZGX sa hybat okolo 3000 bez depeha ? co pozeram vsetko je daleko cez

drastyk

Nedavno som si zaobstaral miniPC s AI 395+ max. Povodne som chcel len obycajny Asus mini PC, ale diky cenam RAM bol ten rozdiel zanedbatelny. Chcel som len device na domace labovanie (potreboval som 64 Gb RAM). Nekupoval som povodne ani kvoli llm, ale min tyzden som skusal nejake veci. Celkom ma to prijemne prekvapilo. Skusal som LM studio, model qwen3.5-35b-a3b-6q. RAM mam nastavenu na 32/32. Cely model vleze do gpu memory. Bezi to velmi kultivovane (120w TDP). GPU offload treba nastavit naplno. Bez nejakeho tunovania 48tp/s.

No a pouzivam Kilo code, ktory sa lokalne dopytuje na lm studio. Skusal som rozne python scripty, aplikacie, a podobne mini veci, a bez problemov to robilo to co chcem. Same si to podebugovalo, nestaral som sa. Fakt som uzasnuty, nemusi clovek riesit kredity a pod.

Samozrejme ak je niekto pro a robi nad velkymi repozitarmy, tak neviem ako sa to bude spravat s velkymi kontextami... ja mam limit 60k...

Pretaktovanie.sk

local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding

Re: local LLM, AI, Vibe Coding