local LLM, AI, Vibe Coding

Sekcia o programovaní, programovacích jazykoch...
Používateľov profilový obrázok
drastyk
Používateľ
Používateľ
Príspevky: 467
Dátum registrácie: So 30. Júl, 2011, 14:41
Bydlisko: Bratislava

Re: local LLM, AI, Vibe Coding

Príspevok od používateľa drastyk »

lepermessiah napísal: St 11. Feb, 2026, 14:42 OK, ja asi nebudem dobra vzorka na toto :D okrem toho, ze vlastne 2 tyzdne bojujem s tym, aby mi aspon nejako fungoval OS na tom uzasnom laptope, tak pocas generovania to vyuzivalo GPU na 10% a CPU na 38% v priemere, cize bude asi nie idealne porieseny environment pre beh LLM. Videl som, ze sa riesia nejake ROCm a neviem co pre AMD GPU ale mna to akosi obchadza, zatial som vo faze, aby mi aspon monitor zaplo ked pripojim kabel :D

Vysledky viac ako smiesne .. 5.53 tok/sec | 1860 tokens | 13.17s (a to som si vypol prehliadace a Electron appky, aby mi to zralo menej RAM, no ten model mi v RAM berie len 20GB, co je asi dost malo)

EDIT: ked som dal na GPU Offload zo 7 na 25, tak mi GPU zataz stupla na 25%, ale .. 6.59 tok/sec | 1945 tokens | 8.66s. Teda predpokladam, ze ja to CPU/GPU budem mat uplne zle poriesene, ale s tym Strix Halo je peklo cokolvek rozchodit, polka veci v tom notebooku nefunguje ani na predinstalovanom Ubuntu. To by sa na Inteli nestalo.
V skratke ten model je moc velky na 64 Gb, mozno ho rozchodis ale offload cez CPU. Odporam RAM nastavit na 32/32. lebo potrebujes mat este nejake rezervy na kontext a pod veci, system adt. A dat naloadovat model iba do velkosti vRAM.
Spoiler: ukázať
MB: Asus Z170 Pro Gaming CPU: i7 6700K@4,5Ghz VGA: Gainward GTX 1070 PSU: Seasonic s12 520 W RAM: Corsair 16GB@3000 Mhz CASE: Define R3 Black Pearl Monitor: Benq 2411z 144Hz" Repro: Focal Alpha 65 DAC: Topping DX5 ii Sluchádlá: Sennheiser HD 598
Používateľov profilový obrázok
Chris
Pokročilý používateľ
Pokročilý používateľ
Príspevky: 5456
Dátum registrácie: Pi 13. Jan, 2006, 02:00
Bydlisko: Bratislava

Re: local LLM, AI, Vibe Coding

Príspevok od používateľa Chris »

aky mini pc si kupil ?
Master of PaloAlto NGFWs, Cisco ASAs
Používateľov profilový obrázok
drastyk
Používateľ
Používateľ
Príspevky: 467
Dátum registrácie: So 30. Júl, 2011, 14:41
Bydlisko: Bratislava

Re: local LLM, AI, Vibe Coding

Príspevok od používateľa drastyk »

gmktec evo-x2
Spoiler: ukázať
MB: Asus Z170 Pro Gaming CPU: i7 6700K@4,5Ghz VGA: Gainward GTX 1070 PSU: Seasonic s12 520 W RAM: Corsair 16GB@3000 Mhz CASE: Define R3 Black Pearl Monitor: Benq 2411z 144Hz" Repro: Focal Alpha 65 DAC: Topping DX5 ii Sluchádlá: Sennheiser HD 598
Používateľov profilový obrázok
zoom
Používateľ
Používateľ
Príspevky: 2914
Dátum registrácie: Št 16. Jún, 2005, 20:00
Bydlisko: Bratislava (42)

Re: local LLM, AI, Vibe Coding

Príspevok od používateľa zoom »

Ma tu niekto rozbehane agentske programovanie na localhoste? Chcel by som sa tomu povenovat, ale... nejako mi to uplne nejde. Nie ze by som tomu venoval nejaky podstatny cas.

Moj ciel je mat lokalny model a do istej miery klonovat pracu Codexu ci Claude Code. Samozrejme s hlupejsimi vysledkami, ale chcem sa hrat. Ide mi o to dostat sa za hranicu bezneho chatovania a realne pustit agenta na ulozenom projekte s XY subormi a nech si to tam kludne 1-2-3 hodiny chrume. Ci uz samostatny program, alebo nieco, co bude spolupracovat napr. s LM Studio.

Bavime sa o Windows svete (a chcem sa vyhnut aj WSL). Vsetci ospevuju OpenCode, ale tak skusal som ich Desktop (GUI) verziu a ziadna slava. Typicka open-sourcovina, cize nainstalujes, otvoris, maximalne neprehladne a neintuitivne, presmerujes ho na cisty novy adresar, vyhodi 3 nicnehovoriace chyby a je koniec skusania.

Cital som, ze OpenChamber je polished, ale je len pre kidsOS. Windows a Linuk Desktop aplikacia je v roadmape, tak mozno casom.
LordKJ
Sponzor fóra gold
Sponzor fóra gold
Príspevky: 8280
Dátum registrácie: Po 28. Feb, 2011, 11:49
Bydlisko: Bratislava

Re: local LLM, AI, Vibe Coding

Príspevok od používateľa LordKJ »

win a dokonca aj linux je momentalne second class citizen v celom tomto agentic svete

ja fungujem na pocudovanie stale iba s cli, mac kolegovia maju trilion rozmych toolov, lepsich terminalov a neviem coho

// teraz mi napadlo, skus https://www.warp.dev/ + opencode cli (ten ich agent je fajn)

btw aj closed source ako napr. claude code je niekedy uplny mess v tom ako nefunguje a pritom za ich tokeny platia aktivnejsi ludia par stoviek denne

btw2 claude code podporuje BYOK takze podla mna vies aj ten nasmerovat na lokalne llm

https://support.claude.com/en/articles/ ... -platforms
https://docs.litellm.ai/docs/tutorials/claude_code_byok

za mna bol droid od factory.ai ovela lepsi ako claude code a maju aj nejake GUI a samozrejme BYOK rezim
main: 9950X + Noctua NH-D15 G2, ASUS STRIX B650E-F, Kingston 64gb DDR5 6000 CL30, 7900 GRE Nitro+, 990 Pro 4TB, ASUS STRIX Aura RGB 1000W, Fractal North XL + 4x Noctua A14x25 G2
faugusztin
Moderátor
Moderátor
Príspevky: 15061
Dátum registrácie: Ut 26. Feb, 2008, 14:00
Bydlisko: Bratislava/Štúrovo

Re: local LLM, AI, Vibe Coding

Príspevok od používateľa faugusztin »

@zoom Problem je nutne rozdelit na 3 casti - vyber modelu (podla dostupneho HW), vyber LLM servra a vyber klienta.

Model - v zavislosti od velkosti dostupnej VRAM a memory bandwidth si vyberies model, jeho kvantizaciu, kvantizaciu KV cache, velkost kontextu a pripadny offloading urcitych casti do beznej RAM. Ja osobne mam dobre skusenosti s Qwen3.6 modelmi:
Ak mas 32GB VRAM => Qwen3.6-27B v niektorej z Q3-Q5 kvantizacii s 200k kontextom, kde kvantizujes K cache na Q8 a V cache na Q4.
Ak mas 16GB VRAM => Qwen3.6-35B-A3B v niektorej z Q3-Q5 kvantizacii s 200k kontextom, kde kvantizujes K cache na Q8 a V cache na Q4.
Ak mas menej VRAM => Qwen3.6-35B-A3B v niektorej z Q3-Q5 kvantizacii s 200k kontextom, kde kvantizujes K cache na Q8 a V cache na Q4 a pouzijes v llama.cpp trik na odlahcenie VRAM (vysvetlim neskor).
Gemma4-26B-A4B a Gemma4-31B su vraj tiez celkom pouzitelne, ale Qwen3.6 ma mensie pamatove naroky na KV cache nez Gemma4.

Vyber LLM servra - tu by som povedal, ze realisticky mas na vyber iba jednu z 2 moznosti - LM Studio a llama.cpp. LM Studio je nastroj vhodnejsi pre BFU, kedze ma GUI, kde si vela veci jednoducho nastavis. Avsak nedokazes v nom spravit ten spominany trik s odlahcenim RAM. llama.cpp je engine pouzity aj v LM Studiu, avsak tym ze pouzijes original, tak mas viacero moznosti, ktore cez GUI nie su v LM Studio dostupne.
Potom existuju veci ako vLLM, sglang atd, ale tie casto maju mizernu podporu GGUF modelov, a safetensors modely zas casto nie su kvantizovane, takze na domacich GPU tie modely v plnej velkosti nerozbehas. Vsetky tieto servre ti davaju OpenAI aj Anthropic API kompatibilne rozhrania.

Vyber klienta - tu je to relativne jednoduche, vyber si co ti vyhovuje, ak sa teda bavime o CLI aplikaciach. Claude code sa da nakonfigurovat aby komunikoval voci tvojmu lokalnemu modelu, potom mas alternativy ako pi (ktory ma barebones funkcionalitu, ale mozes pridat kopec pluginov), Hermes Agent, OpenCode atd.
V pripade GUI aplikacii mas casto v samotnych IDE moznost napojit sa na OpenAI kompatibilne endpointy, tj ja som napojil Visual Studio Code cez Chat funkciu v nom, alebo cez Cline alebo Continue.

Teraz k ukazkam - Qwen3.6-35B-A3B cez llama.cpp:

Kód: Vybrať všetko

llama-server.exe --alias "claude-sonnet-4-6" --ctx-size 0 --fit on --no-mmproj --jinja --flash-attn on --cache-type-k q8_0 --cache-type-v q4_0 --override-tensor ".*ffn_.*_exps\.=CPU" -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-IQ3_XXS --host 0.0.0.0
Co znamenaju jednotlive parametre:
  • --alias "claude-sonnet-4-6" - pod tymto aliasom sa bude model hlasit. Tym ze nastavis ze sa ma hlasit ako sonnet 4.6, tak nemusis menit ziadne konfiguracie Claude Code, ak teda nebudes prepinat modely.
  • --ctx-size 0 - chceme maximalny context size modelu. Pripadne nastav 200000 alebo kolko sa ti zmesti do VRAM.
  • --fit on - skusi nahodit do VRAM vsetko co moze, co sme mu inym sposobom neprikazali dat do beznej RAM.
  • --no-mmproj - vypne obrazkove/zvukove casti modelu, usetri to VRAM
  • --jinja - podpora JINJA template engine
  • --flash-attn on - setri VRAM
  • --cache-type-k q4_0 --cache-type-v q4_0 - nastavi K cache na Q4_0 a V cache na Q4_0
  • --override-tensor ".*ffn_.*_exps\.=CPU" - toto je velky trik pre ludi, co maju malo VRAM. LM Studio bezne dokaze dat do RAM iba cele bloky modelu, ale tie bloky obsahuju casti ktore potrebuju vykon GPU pri maticovych vypoctoch, zaroven ale velka cast modelu je fajn aj ked je na CPU, lebo tie vypocty potrebne vo velkej casti nie su az tak citlive na vykon. Takze tymto povies, ze velku cast modelu nech hodi na CPU/RAM bez extremnej straty vykonu. Ak mas dost VRAM, tak tento parameter vynechaj.
  • -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-IQ3_XXS - model a kvantizacia z huggingface
  • --host 0.0.0.0 - bindovanie na 0.0.0.0, port 8080
Ako ano, s tym --override-tensor to bude pomalsie nez bez toho, ale o niekolko radov lepsie nez ked ti offloaduje celu sekciu na CPU.

Spustis takto server a ak mas CUDA verziu, tak ti to pouzije NVIDIA GPU, ak mas ROCm, tak pouzije Radeon, ak Vulkan verziu, tak pouzije Vulkan kompatibilne GPU (ale je to pomalsie nez CUDA/ROCm).

Nasledne musis nakonfigurovat nastroj. V pripade Claude code staci, aby si mal nastavene nasledovne environment premenne:

Kód: Vybrať všetko

      export ANTHROPIC_AUTH_TOKEN="llamacpp"
      export ANTHROPIC_BASE_URL="http://hostname.llama.cpp.servra:8080"
      export CLAUDE_CODE_ATTRIBUTION_HEADER=0
      export DISABLE_TELEMETRY=1
      export DISABLE_ERROR_REPORTING=1
      export CLAUDE_CODE_DISABLE_FEEDBACK_SURVEY=1
      export CLAUDE_CODE_DISABLE_1M_CONTEXT=1
      export CLAUDE_CODE_AUTO_COMPACT_WINDOW=200000
      export CLAUDE_AUTOCOMPACT_PCT_OVERRIDE=95
Tiez mozes pripadne nastavit aliasovanie nazvu modelov, takze ak llama.cpp spustis s --alias "code", tak mozes pridat tieto env premenne a interne bude Sonnet, Haiku aj Opus prekladat na code pri volani LLM:

Kód: Vybrať všetko

      export ANTHROPIC_DEFAULT_SONNET_MODEL="code"
      export ANTHROPIC_DEFAULT_HAIKU_MODEL="code"
      export ANTHROPIC_DEFAULT_OPUS_MODEL="code"
A potom iba spustis claude code. Myslim ze toto by malo fungovat aj na GUI verziu alebo na verziu ako plugin vo VS Code, ale GUI mod som neskusal.

PS - Len pre ukazku, vyssie uvedeny Qwen s offloadingom a q4/q4 cache mi generoval 714.9 t/s prompt processing a 52.53 t/s token generation na 4080 Super, kde model vo VRAM obsadil iba 4.2GB VRAM. Je samozrejme otazne ze ako velmi bude robit problemy q4 K cache, to musis zistit ty pri tvojom vyuziti. Bez --override-tensor parametra ten isty model spravil 200t/s PP a 10.35 t/s TG.

Ak samozrejme mas GPU, do ktorej sa zmesti cely model aj s K/V cache, tak nema zmysel vobec riesit tieto triky, ale ak mas nieco s menej nez 24GB VRAM, tak su tieto triky vhodne, lebo sice ti prompt processing nezacina na 2000t/s prvych 30 tisic tokenov, ale stale je lepsie zacat na 700 nez na 200t/s.
Používateľov profilový obrázok
shiro
Pokročilý používateľ
Pokročilý používateľ
Príspevky: 9342
Dátum registrácie: Št 21. Dec, 2006, 02:00
Bydlisko: Banska Bystrica

Re: local LLM, AI, Vibe Coding

Príspevok od používateľa shiro »

--override-tensor ".*ffn_.*_exps\.=CPU" - toto je velky trik pre ludi, co maju malo VRAM. LM Studio bezne dokaze dat do RAM iba cele bloky modelu, ale tie bloky obsahuju casti ktore potrebuju vykon GPU pri maticovych vypoctoch, zaroven ale velka cast modelu je fajn aj ked je na CPU, lebo tie vypocty potrebne vo velkej casti nie su az tak citlive na vykon. Takze tymto povies, ze velku cast modelu nech hodi na CPU/RAM bez extremnej straty vykonu. Ak mas dost VRAM, tak tento parameter vynechaj.
Vraj to ide aj v LM Studio GUI:
Method 1: Via the UI (Recommended)Go to the AI Chat tab or Model Configuration tab.On the right-hand panel, find the GPU Offload settings.Ensure GPU Offload is enabled.Look for an "Advanced Configuration" or a direct text input field for extra llama.cpp arguments (if available in your version).Enter the override string, for example:--override-tensor "\.ffn_.*_exps\.\*@CPU"Note: The exact regex depends on the model architecture, often requiring ffn_ layers to be offloaded.

Method 2: Via Model Defaults (Per-Model)Go to the My Models tab.Click the gear ⚙️ icon next to the model you want to configure.In the settings dialog, find the Advanced Load Settings.Add the argument in the Additional Arguments field
Inac, ked v LM Studio v sidebare s vlastnostami parametrov modelu, zmenim nejaky z parametrov, ked mam model loadnuty, prejavi sa to ihned, alebo musim model reloadnut so zmenenymi parametrami?

Hram sa s tym uz nejaku dobu na zostave v podpise. Nielen ze sa vysledok a kvalita vysledku lisi model od modelu, kedze kazdy je urceny na nieco ine, ale aj od jeho velkosti a kvantizacie. Od 9B a vyssie to uz ide pomaly, pod Q4_K_M nema zmysel ist. Niektore verzie Qwen nevedeli spravne nakodit ani jednoduchu appku v pythone a tkinter, zobrazujucu cas a datum. Netusim, preco existuje XY verzii jedneho modelu (napr. Qwen 3.5, Gemma 3) od XY uzivatelov na Huggingface. Taky, onaky model, aj ked nemaju ziadne pridane suffixy ako aggressive, distilled, atd....akoby kazdy z nich musel mat svoj model, akoby sa hrali ze "moj je lepsi, tahajte odo mna"...akoby im to davalo nejake vyhody.
Ryzen 7 3700X | SilentiumPC Fera 3 | Asrock X570M Pro4 | Kingston FURY 32GB DDR4 3600 MHz CL18 Beast Black | Gainward RTX4060 Ti Pegasus 8GB | Samsung 970evo Plus 250GB NVMe | Corsair MP510 1TB NVMe | Samsung 980 Pro 2TB NVMe | Corsair RM550x | 32" Samsung ViewFinity S60UA | 3x Noctua NF-S12B redux 1200 PWM
Xiaomi 14T 256GB
LordKJ
Sponzor fóra gold
Sponzor fóra gold
Príspevky: 8280
Dátum registrácie: Po 28. Feb, 2011, 11:49
Bydlisko: Bratislava

Re: local LLM, AI, Vibe Coding

Príspevok od používateľa LordKJ »

je aj velky rozdiel v samotnych klientoch (agentoch) aj v tom ake mate loadnute skilly/mcps... a promptoch taktiez

btw v najlacnejsom gpt predplatnom je momentalne included dost codex usage tak ak si niekto plati chatgpt plus tak moze sa pohrat aj stym
main: 9950X + Noctua NH-D15 G2, ASUS STRIX B650E-F, Kingston 64gb DDR5 6000 CL30, 7900 GRE Nitro+, 990 Pro 4TB, ASUS STRIX Aura RGB 1000W, Fractal North XL + 4x Noctua A14x25 G2
faugusztin
Moderátor
Moderátor
Príspevky: 15061
Dátum registrácie: Ut 26. Feb, 2008, 14:00
Bydlisko: Bratislava/Štúrovo

Re: local LLM, AI, Vibe Coding

Príspevok od používateľa faugusztin »

shiro napísal: So 02. Máj, 2026, 12:11 Od 9B a vyssie to uz ide pomaly, pod Q4_K_M nema zmysel ist. Niektore verzie Qwen nevedeli spravne nakodit ani jednoduchu appku v pythone a tkinter, zobrazujucu cas a datum. Netusim, preco existuje XY verzii jedneho modelu (napr. Qwen 3.5, Gemma 3) od XY uzivatelov na Huggingface. Taky, onaky model, aj ked nemaju ziadne pridane suffixy ako aggressive, distilled, atd....akoby kazdy z nich musel mat svoj model, akoby sa hrali ze "moj je lepsi, tahajte odo mna"...akoby im to davalo nejake vyhody.
Prave preto je vhodne v takychto pripadoch ist s Qwen3.6-35B-A3B, lebo to ma rychlost ako 3B model, ale ma znalosti ako 35B model (nie uplne korektny popis, ale je lepsi nez bezny 3B model).

Pred Qwen3.6 by som povedal ze pod Q4 nema cenu ist, u 3.6 su aj Q3 casto celkom pouzitelne, ale samozrejme ak mozete ist vacsou kvantizaciou, tak sup do toho.

Jediny co podla mna ma zmysel riesil je typicky unsloth a ich UD kvantizacie (Unsloth Dynamic - takze napriklad su rozne casti kvantizovane rozne, takze dolezitejsie veci ostanu presnejsie, zatial co menej dolezite su kvantizovane horsie, cim sa dosiahne mensia velkost pri rovnakej funkcnosti pre typicke pouzitie). A I quanty, ktore tiez zmensuju velkost bez dosahu na presnost. Ale vo finale treba skusat rozne kvantizacie a vybrat si ten spravny.

Napriklad ked som riesil model, co dokazal relativne dobre komunikovat v slovencine, tak som skoncil na Gemma4-26B-A4B pri Q5 kvantizacii tusim.

Návrat na "Programovanie"