V skratke ten model je moc velky na 64 Gb, mozno ho rozchodis ale offload cez CPU. Odporam RAM nastavit na 32/32. lebo potrebujes mat este nejake rezervy na kontext a pod veci, system adt. A dat naloadovat model iba do velkosti vRAM.lepermessiah napísal: St 11. Feb, 2026, 14:42 OK, ja asi nebudem dobra vzorka na totookrem toho, ze vlastne 2 tyzdne bojujem s tym, aby mi aspon nejako fungoval OS na tom uzasnom laptope, tak pocas generovania to vyuzivalo GPU na 10% a CPU na 38% v priemere, cize bude asi nie idealne porieseny environment pre beh LLM. Videl som, ze sa riesia nejake ROCm a neviem co pre AMD GPU ale mna to akosi obchadza, zatial som vo faze, aby mi aspon monitor zaplo ked pripojim kabel
Vysledky viac ako smiesne .. 5.53 tok/sec | 1860 tokens | 13.17s (a to som si vypol prehliadace a Electron appky, aby mi to zralo menej RAM, no ten model mi v RAM berie len 20GB, co je asi dost malo)
EDIT: ked som dal na GPU Offload zo 7 na 25, tak mi GPU zataz stupla na 25%, ale .. 6.59 tok/sec | 1945 tokens | 8.66s. Teda predpokladam, ze ja to CPU/GPU budem mat uplne zle poriesene, ale s tym Strix Halo je peklo cokolvek rozchodit, polka veci v tom notebooku nefunguje ani na predinstalovanom Ubuntu. To by sa na Inteli nestalo.
local LLM, AI, Vibe Coding
Re: local LLM, AI, Vibe Coding
Spoiler: ukázať
- zoom
- Používateľ

- Príspevky: 2916
- Dátum registrácie: Št 16. Jún, 2005, 20:00
- Bydlisko: Bratislava (42)
Re: local LLM, AI, Vibe Coding
Ma tu niekto rozbehane agentske programovanie na localhoste? Chcel by som sa tomu povenovat, ale... nejako mi to uplne nejde. Nie ze by som tomu venoval nejaky podstatny cas.
Moj ciel je mat lokalny model a do istej miery klonovat pracu Codexu ci Claude Code. Samozrejme s hlupejsimi vysledkami, ale chcem sa hrat. Ide mi o to dostat sa za hranicu bezneho chatovania a realne pustit agenta na ulozenom projekte s XY subormi a nech si to tam kludne 1-2-3 hodiny chrume. Ci uz samostatny program, alebo nieco, co bude spolupracovat napr. s LM Studio.
Bavime sa o Windows svete (a chcem sa vyhnut aj WSL). Vsetci ospevuju OpenCode, ale tak skusal som ich Desktop (GUI) verziu a ziadna slava. Typicka open-sourcovina, cize nainstalujes, otvoris, maximalne neprehladne a neintuitivne, presmerujes ho na cisty novy adresar, vyhodi 3 nicnehovoriace chyby a je koniec skusania.
Cital som, ze OpenChamber je polished, ale je len pre kidsOS. Windows a Linuk Desktop aplikacia je v roadmape, tak mozno casom.
Moj ciel je mat lokalny model a do istej miery klonovat pracu Codexu ci Claude Code. Samozrejme s hlupejsimi vysledkami, ale chcem sa hrat. Ide mi o to dostat sa za hranicu bezneho chatovania a realne pustit agenta na ulozenom projekte s XY subormi a nech si to tam kludne 1-2-3 hodiny chrume. Ci uz samostatny program, alebo nieco, co bude spolupracovat napr. s LM Studio.
Bavime sa o Windows svete (a chcem sa vyhnut aj WSL). Vsetci ospevuju OpenCode, ale tak skusal som ich Desktop (GUI) verziu a ziadna slava. Typicka open-sourcovina, cize nainstalujes, otvoris, maximalne neprehladne a neintuitivne, presmerujes ho na cisty novy adresar, vyhodi 3 nicnehovoriace chyby a je koniec skusania.
Cital som, ze OpenChamber je polished, ale je len pre kidsOS. Windows a Linuk Desktop aplikacia je v roadmape, tak mozno casom.
-
LordKJ
- Sponzor fóra gold

- Príspevky: 8281
- Dátum registrácie: Po 28. Feb, 2011, 11:49
- Bydlisko: Bratislava
Re: local LLM, AI, Vibe Coding
win a dokonca aj linux je momentalne second class citizen v celom tomto agentic svete
ja fungujem na pocudovanie stale iba s cli, mac kolegovia maju trilion rozmych toolov, lepsich terminalov a neviem coho
// teraz mi napadlo, skus https://www.warp.dev/ + opencode cli (ten ich agent je fajn)
btw aj closed source ako napr. claude code je niekedy uplny mess v tom ako nefunguje a pritom za ich tokeny platia aktivnejsi ludia par stoviek denne
btw2 claude code podporuje BYOK takze podla mna vies aj ten nasmerovat na lokalne llm
https://support.claude.com/en/articles/ ... -platforms
https://docs.litellm.ai/docs/tutorials/claude_code_byok
za mna bol droid od factory.ai ovela lepsi ako claude code a maju aj nejake GUI a samozrejme BYOK rezim
ja fungujem na pocudovanie stale iba s cli, mac kolegovia maju trilion rozmych toolov, lepsich terminalov a neviem coho
// teraz mi napadlo, skus https://www.warp.dev/ + opencode cli (ten ich agent je fajn)
btw aj closed source ako napr. claude code je niekedy uplny mess v tom ako nefunguje a pritom za ich tokeny platia aktivnejsi ludia par stoviek denne
btw2 claude code podporuje BYOK takze podla mna vies aj ten nasmerovat na lokalne llm
https://support.claude.com/en/articles/ ... -platforms
https://docs.litellm.ai/docs/tutorials/claude_code_byok
za mna bol droid od factory.ai ovela lepsi ako claude code a maju aj nejake GUI a samozrejme BYOK rezim
main: 9950X + Noctua NH-D15 G2, ASUS STRIX B650E-F, Kingston 64gb DDR5 6000 CL30, 7900 GRE Nitro+, 990 Pro 4TB, ASUS STRIX Aura RGB 1000W, Fractal North XL + 4x Noctua A14x25 G2
-
faugusztin
- Moderátor

- Príspevky: 15064
- Dátum registrácie: Ut 26. Feb, 2008, 14:00
- Bydlisko: Bratislava/Štúrovo
Re: local LLM, AI, Vibe Coding
@zoom Problem je nutne rozdelit na 3 casti - vyber modelu (podla dostupneho HW), vyber LLM servra a vyber klienta.
Model - v zavislosti od velkosti dostupnej VRAM a memory bandwidth si vyberies model, jeho kvantizaciu, kvantizaciu KV cache, velkost kontextu a pripadny offloading urcitych casti do beznej RAM. Ja osobne mam dobre skusenosti s Qwen3.6 modelmi:
Ak mas 32GB VRAM => Qwen3.6-27B v niektorej z Q3-Q5 kvantizacii s 200k kontextom, kde kvantizujes K cache na Q8 a V cache na Q4.
Ak mas 16GB VRAM => Qwen3.6-35B-A3B v niektorej z Q3-Q5 kvantizacii s 200k kontextom, kde kvantizujes K cache na Q8 a V cache na Q4.
Ak mas menej VRAM => Qwen3.6-35B-A3B v niektorej z Q3-Q5 kvantizacii s 200k kontextom, kde kvantizujes K cache na Q8 a V cache na Q4 a pouzijes v llama.cpp trik na odlahcenie VRAM (vysvetlim neskor).
Gemma4-26B-A4B a Gemma4-31B su vraj tiez celkom pouzitelne, ale Qwen3.6 ma mensie pamatove naroky na KV cache nez Gemma4.
Vyber LLM servra - tu by som povedal, ze realisticky mas na vyber iba jednu z 2 moznosti - LM Studio a llama.cpp. LM Studio je nastroj vhodnejsi pre BFU, kedze ma GUI, kde si vela veci jednoducho nastavis. Avsak nedokazes v nom spravit ten spominany trik s odlahcenim RAM. llama.cpp je engine pouzity aj v LM Studiu, avsak tym ze pouzijes original, tak mas viacero moznosti, ktore cez GUI nie su v LM Studio dostupne.
Potom existuju veci ako vLLM, sglang atd, ale tie casto maju mizernu podporu GGUF modelov, a safetensors modely zas casto nie su kvantizovane, takze na domacich GPU tie modely v plnej velkosti nerozbehas. Vsetky tieto servre ti davaju OpenAI aj Anthropic API kompatibilne rozhrania.
Vyber klienta - tu je to relativne jednoduche, vyber si co ti vyhovuje, ak sa teda bavime o CLI aplikaciach. Claude code sa da nakonfigurovat aby komunikoval voci tvojmu lokalnemu modelu, potom mas alternativy ako pi (ktory ma barebones funkcionalitu, ale mozes pridat kopec pluginov), Hermes Agent, OpenCode atd.
V pripade GUI aplikacii mas casto v samotnych IDE moznost napojit sa na OpenAI kompatibilne endpointy, tj ja som napojil Visual Studio Code cez Chat funkciu v nom, alebo cez Cline alebo Continue.
Teraz k ukazkam - Qwen3.6-35B-A3B cez llama.cpp:
Co znamenaju jednotlive parametre:
Spustis takto server a ak mas CUDA verziu, tak ti to pouzije NVIDIA GPU, ak mas ROCm, tak pouzije Radeon, ak Vulkan verziu, tak pouzije Vulkan kompatibilne GPU (ale je to pomalsie nez CUDA/ROCm).
Nasledne musis nakonfigurovat nastroj. V pripade Claude code staci, aby si mal nastavene nasledovne environment premenne:
Tiez mozes pripadne nastavit aliasovanie nazvu modelov, takze ak llama.cpp spustis s --alias "code", tak mozes pridat tieto env premenne a interne bude Sonnet, Haiku aj Opus prekladat na code pri volani LLM:
A potom iba spustis claude code. Myslim ze toto by malo fungovat aj na GUI verziu alebo na verziu ako plugin vo VS Code, ale GUI mod som neskusal.
PS - Len pre ukazku, vyssie uvedeny Qwen s offloadingom a q4/q4 cache mi generoval 714.9 t/s prompt processing a 52.53 t/s token generation na 4080 Super, kde model vo VRAM obsadil iba 4.2GB VRAM. Je samozrejme otazne ze ako velmi bude robit problemy q4 K cache, to musis zistit ty pri tvojom vyuziti. Bez --override-tensor parametra ten isty model spravil 200t/s PP a 10.35 t/s TG.
Ak samozrejme mas GPU, do ktorej sa zmesti cely model aj s K/V cache, tak nema zmysel vobec riesit tieto triky, ale ak mas nieco s menej nez 24GB VRAM, tak su tieto triky vhodne, lebo sice ti prompt processing nezacina na 2000t/s prvych 30 tisic tokenov, ale stale je lepsie zacat na 700 nez na 200t/s.
Model - v zavislosti od velkosti dostupnej VRAM a memory bandwidth si vyberies model, jeho kvantizaciu, kvantizaciu KV cache, velkost kontextu a pripadny offloading urcitych casti do beznej RAM. Ja osobne mam dobre skusenosti s Qwen3.6 modelmi:
Ak mas 32GB VRAM => Qwen3.6-27B v niektorej z Q3-Q5 kvantizacii s 200k kontextom, kde kvantizujes K cache na Q8 a V cache na Q4.
Ak mas 16GB VRAM => Qwen3.6-35B-A3B v niektorej z Q3-Q5 kvantizacii s 200k kontextom, kde kvantizujes K cache na Q8 a V cache na Q4.
Ak mas menej VRAM => Qwen3.6-35B-A3B v niektorej z Q3-Q5 kvantizacii s 200k kontextom, kde kvantizujes K cache na Q8 a V cache na Q4 a pouzijes v llama.cpp trik na odlahcenie VRAM (vysvetlim neskor).
Gemma4-26B-A4B a Gemma4-31B su vraj tiez celkom pouzitelne, ale Qwen3.6 ma mensie pamatove naroky na KV cache nez Gemma4.
Vyber LLM servra - tu by som povedal, ze realisticky mas na vyber iba jednu z 2 moznosti - LM Studio a llama.cpp. LM Studio je nastroj vhodnejsi pre BFU, kedze ma GUI, kde si vela veci jednoducho nastavis. Avsak nedokazes v nom spravit ten spominany trik s odlahcenim RAM. llama.cpp je engine pouzity aj v LM Studiu, avsak tym ze pouzijes original, tak mas viacero moznosti, ktore cez GUI nie su v LM Studio dostupne.
Potom existuju veci ako vLLM, sglang atd, ale tie casto maju mizernu podporu GGUF modelov, a safetensors modely zas casto nie su kvantizovane, takze na domacich GPU tie modely v plnej velkosti nerozbehas. Vsetky tieto servre ti davaju OpenAI aj Anthropic API kompatibilne rozhrania.
Vyber klienta - tu je to relativne jednoduche, vyber si co ti vyhovuje, ak sa teda bavime o CLI aplikaciach. Claude code sa da nakonfigurovat aby komunikoval voci tvojmu lokalnemu modelu, potom mas alternativy ako pi (ktory ma barebones funkcionalitu, ale mozes pridat kopec pluginov), Hermes Agent, OpenCode atd.
V pripade GUI aplikacii mas casto v samotnych IDE moznost napojit sa na OpenAI kompatibilne endpointy, tj ja som napojil Visual Studio Code cez Chat funkciu v nom, alebo cez Cline alebo Continue.
Teraz k ukazkam - Qwen3.6-35B-A3B cez llama.cpp:
Kód: Vybrať všetko
llama-server.exe --alias "claude-sonnet-4-6" --ctx-size 0 --fit on --no-mmproj --jinja --flash-attn on --cache-type-k q8_0 --cache-type-v q4_0 --override-tensor ".*ffn_.*_exps\.=CPU" -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-IQ3_XXS --host 0.0.0.0- --alias "claude-sonnet-4-6" - pod tymto aliasom sa bude model hlasit. Tym ze nastavis ze sa ma hlasit ako sonnet 4.6, tak nemusis menit ziadne konfiguracie Claude Code, ak teda nebudes prepinat modely.
- --ctx-size 0 - chceme maximalny context size modelu. Pripadne nastav 200000 alebo kolko sa ti zmesti do VRAM.
- --fit on - skusi nahodit do VRAM vsetko co moze, co sme mu inym sposobom neprikazali dat do beznej RAM.
- --no-mmproj - vypne obrazkove/zvukove casti modelu, usetri to VRAM
- --jinja - podpora JINJA template engine
- --flash-attn on - setri VRAM
- --cache-type-k q4_0 --cache-type-v q4_0 - nastavi K cache na Q4_0 a V cache na Q4_0
- --override-tensor ".*ffn_.*_exps\.=CPU" - toto je velky trik pre ludi, co maju malo VRAM. LM Studio bezne dokaze dat do RAM iba cele bloky modelu, ale tie bloky obsahuju casti ktore potrebuju vykon GPU pri maticovych vypoctoch, zaroven ale velka cast modelu je fajn aj ked je na CPU, lebo tie vypocty potrebne vo velkej casti nie su az tak citlive na vykon. Takze tymto povies, ze velku cast modelu nech hodi na CPU/RAM bez extremnej straty vykonu. Ak mas dost VRAM, tak tento parameter vynechaj.
- -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-IQ3_XXS - model a kvantizacia z huggingface
- --host 0.0.0.0 - bindovanie na 0.0.0.0, port 8080
Spustis takto server a ak mas CUDA verziu, tak ti to pouzije NVIDIA GPU, ak mas ROCm, tak pouzije Radeon, ak Vulkan verziu, tak pouzije Vulkan kompatibilne GPU (ale je to pomalsie nez CUDA/ROCm).
Nasledne musis nakonfigurovat nastroj. V pripade Claude code staci, aby si mal nastavene nasledovne environment premenne:
Kód: Vybrať všetko
export ANTHROPIC_AUTH_TOKEN="llamacpp"
export ANTHROPIC_BASE_URL="http://hostname.llama.cpp.servra:8080"
export CLAUDE_CODE_ATTRIBUTION_HEADER=0
export DISABLE_TELEMETRY=1
export DISABLE_ERROR_REPORTING=1
export CLAUDE_CODE_DISABLE_FEEDBACK_SURVEY=1
export CLAUDE_CODE_DISABLE_1M_CONTEXT=1
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=200000
export CLAUDE_AUTOCOMPACT_PCT_OVERRIDE=95Kód: Vybrať všetko
export ANTHROPIC_DEFAULT_SONNET_MODEL="code"
export ANTHROPIC_DEFAULT_HAIKU_MODEL="code"
export ANTHROPIC_DEFAULT_OPUS_MODEL="code"
PS - Len pre ukazku, vyssie uvedeny Qwen s offloadingom a q4/q4 cache mi generoval 714.9 t/s prompt processing a 52.53 t/s token generation na 4080 Super, kde model vo VRAM obsadil iba 4.2GB VRAM. Je samozrejme otazne ze ako velmi bude robit problemy q4 K cache, to musis zistit ty pri tvojom vyuziti. Bez --override-tensor parametra ten isty model spravil 200t/s PP a 10.35 t/s TG.
Ak samozrejme mas GPU, do ktorej sa zmesti cely model aj s K/V cache, tak nema zmysel vobec riesit tieto triky, ale ak mas nieco s menej nez 24GB VRAM, tak su tieto triky vhodne, lebo sice ti prompt processing nezacina na 2000t/s prvych 30 tisic tokenov, ale stale je lepsie zacat na 700 nez na 200t/s.
- shiro
- Pokročilý používateľ

- Príspevky: 9343
- Dátum registrácie: Št 21. Dec, 2006, 02:00
- Bydlisko: Banska Bystrica
Re: local LLM, AI, Vibe Coding
Vraj to ide aj v LM Studio GUI:--override-tensor ".*ffn_.*_exps\.=CPU" - toto je velky trik pre ludi, co maju malo VRAM. LM Studio bezne dokaze dat do RAM iba cele bloky modelu, ale tie bloky obsahuju casti ktore potrebuju vykon GPU pri maticovych vypoctoch, zaroven ale velka cast modelu je fajn aj ked je na CPU, lebo tie vypocty potrebne vo velkej casti nie su az tak citlive na vykon. Takze tymto povies, ze velku cast modelu nech hodi na CPU/RAM bez extremnej straty vykonu. Ak mas dost VRAM, tak tento parameter vynechaj.
Inac, ked v LM Studio v sidebare s vlastnostami parametrov modelu, zmenim nejaky z parametrov, ked mam model loadnuty, prejavi sa to ihned, alebo musim model reloadnut so zmenenymi parametrami?Method 1: Via the UI (Recommended)Go to the AI Chat tab or Model Configuration tab.On the right-hand panel, find the GPU Offload settings.Ensure GPU Offload is enabled.Look for an "Advanced Configuration" or a direct text input field for extra llama.cpp arguments (if available in your version).Enter the override string, for example:--override-tensor "\.ffn_.*_exps\.\*@CPU"Note: The exact regex depends on the model architecture, often requiring ffn_ layers to be offloaded.
Method 2: Via Model Defaults (Per-Model)Go to the My Models tab.Click the gearicon next to the model you want to configure.In the settings dialog, find the Advanced Load Settings.Add the argument in the Additional Arguments field
Hram sa s tym uz nejaku dobu na zostave v podpise. Nielen ze sa vysledok a kvalita vysledku lisi model od modelu, kedze kazdy je urceny na nieco ine, ale aj od jeho velkosti a kvantizacie. Od 9B a vyssie to uz ide pomaly, pod Q4_K_M nema zmysel ist. Niektore verzie Qwen nevedeli spravne nakodit ani jednoduchu appku v pythone a tkinter, zobrazujucu cas a datum. Netusim, preco existuje XY verzii jedneho modelu (napr. Qwen 3.5, Gemma 3) od XY uzivatelov na Huggingface. Taky, onaky model, aj ked nemaju ziadne pridane suffixy ako aggressive, distilled, atd....akoby kazdy z nich musel mat svoj model, akoby sa hrali ze "moj je lepsi, tahajte odo mna"...akoby im to davalo nejake vyhody.
Ryzen 7 3700X | SilentiumPC Fera 3 | Asrock X570M Pro4 | Kingston FURY 32GB DDR4 3600 MHz CL18 Beast Black | Gainward RTX4060 Ti Pegasus 8GB | Samsung 970evo Plus 250GB NVMe | Corsair MP510 1TB NVMe | Samsung 980 Pro 2TB NVMe | Corsair RM550x | 32" Samsung ViewFinity S60UA | 3x Noctua NF-S12B redux 1200 PWM
Xiaomi 14T 256GB
Xiaomi 14T 256GB
-
LordKJ
- Sponzor fóra gold

- Príspevky: 8281
- Dátum registrácie: Po 28. Feb, 2011, 11:49
- Bydlisko: Bratislava
Re: local LLM, AI, Vibe Coding
je aj velky rozdiel v samotnych klientoch (agentoch) aj v tom ake mate loadnute skilly/mcps... a promptoch taktiez
btw v najlacnejsom gpt predplatnom je momentalne included dost codex usage tak ak si niekto plati chatgpt plus tak moze sa pohrat aj stym
btw v najlacnejsom gpt predplatnom je momentalne included dost codex usage tak ak si niekto plati chatgpt plus tak moze sa pohrat aj stym
main: 9950X + Noctua NH-D15 G2, ASUS STRIX B650E-F, Kingston 64gb DDR5 6000 CL30, 7900 GRE Nitro+, 990 Pro 4TB, ASUS STRIX Aura RGB 1000W, Fractal North XL + 4x Noctua A14x25 G2
-
faugusztin
- Moderátor

- Príspevky: 15064
- Dátum registrácie: Ut 26. Feb, 2008, 14:00
- Bydlisko: Bratislava/Štúrovo
Re: local LLM, AI, Vibe Coding
Prave preto je vhodne v takychto pripadoch ist s Qwen3.6-35B-A3B, lebo to ma rychlost ako 3B model, ale ma znalosti ako 35B model (nie uplne korektny popis, ale je lepsi nez bezny 3B model).shiro napísal: So 02. Máj, 2026, 12:11 Od 9B a vyssie to uz ide pomaly, pod Q4_K_M nema zmysel ist. Niektore verzie Qwen nevedeli spravne nakodit ani jednoduchu appku v pythone a tkinter, zobrazujucu cas a datum. Netusim, preco existuje XY verzii jedneho modelu (napr. Qwen 3.5, Gemma 3) od XY uzivatelov na Huggingface. Taky, onaky model, aj ked nemaju ziadne pridane suffixy ako aggressive, distilled, atd....akoby kazdy z nich musel mat svoj model, akoby sa hrali ze "moj je lepsi, tahajte odo mna"...akoby im to davalo nejake vyhody.
Pred Qwen3.6 by som povedal ze pod Q4 nema cenu ist, u 3.6 su aj Q3 casto celkom pouzitelne, ale samozrejme ak mozete ist vacsou kvantizaciou, tak sup do toho.
Jediny co podla mna ma zmysel riesil je typicky unsloth a ich UD kvantizacie (Unsloth Dynamic - takze napriklad su rozne casti kvantizovane rozne, takze dolezitejsie veci ostanu presnejsie, zatial co menej dolezite su kvantizovane horsie, cim sa dosiahne mensia velkost pri rovnakej funkcnosti pre typicke pouzitie). A I quanty, ktore tiez zmensuju velkost bez dosahu na presnost. Ale vo finale treba skusat rozne kvantizacie a vybrat si ten spravny.
Napriklad ked som riesil model, co dokazal relativne dobre komunikovat v slovencine, tak som skoncil na Gemma4-26B-A4B pri Q5 kvantizacii tusim.
Re: local LLM, AI, Vibe Coding
@zoom Ja sa tomu moc nevenujem, ale jednoducho som rozbehal LMstudio + VScode + plugin KiloCode.
Presne ako pises, das ulohu ides na hodku 2 prec, a same si to zije...
Presne ako pises, das ulohu ides na hodku 2 prec, a same si to zije...
Spoiler: ukázať
- zoom
- Používateľ

- Príspevky: 2916
- Dátum registrácie: Št 16. Jún, 2005, 20:00
- Bydlisko: Bratislava (42)
Re: local LLM, AI, Vibe Coding
Ňo takto. S lokalnym LLM (cize LLLM) mam skusenosti, vsak koncom roka som nakupoval rychlo RAMky a odvtedy sa hram s LM Studiom. Momentalne mam natahanych cez 800GB modelov a striedam ich, skusam a porovnavam, takze v tomto som celkom zbehly. Co som vsak nepoznal je --override-tensor parameter a musim povedat, ze je to uplny game-changer. Napriek popisu vyssie sa vsak asi nikde neda zadat v LM Studio (0.4.12). Tak v ramci skusania som si teda rozbehal llama.cpp, pretoze mame radi veci, ktore sa len rozbalia a neinstaluju.
Nasiel som aj request na GitHube, ktory popisuje utilitku llama-fit-params, ktora vlastne presne spocita, ako najlepsie nastavit tento parameter pre dany HW, model a context window. Dostupna je aj vo Windows verzii, takze som to trosku otestoval. Ako testovaci model som si zobral Qwen3.6-35B-A3B-UD-Q8_K_XL.gguf. System je 5070Ti (16GB VRAM) a 96GB RAM. Pre moj system to vyhodilo toto (vo vsetkych prikazoch som namiesto -hf parametra pouzil -m, lebo modely uz mam na disku):
Cizeee... celkom rozdiel. Pridalo to -ngl (--n-gpu-layers) a ukrutne to predlzilo -ot (--override-tensor). Teraz trosku benchmarkov. Vyrobil som nejaku otazku o buducnosti civilizacie, ktoru tie modely chrumali 2-3 minuty a vysledky su taketo:
Ako vidno, rozdiel je masivny. Ten zakladny tuning od pana augusztina prinesie v podstate 90% vykonu pomerne bezpracne. Uplne tailored tunovanie cez tu utilitku zvysnych 10%. Pekna paralela ako pri pretaktovani, resp. 80/20 princip. Kazdopadne je to uplne masivny narast oproti LM Studiu - akoby som si do PC dal dalsiu grafiku. Famozne. Len poznamka - zatial som naschval vynechal hranie sa s quantizaciou K/V cache. Este to poskusam, ale som spokojny aj s tymito tps i ked na rychlejsie sa lahko zvyka.
Ako takto... hram sa sice s LLLM, ale v ramci skusania mam zaplateny aj ChatGPT, Gemini a Claude naraz
. Zatial som vsak na lokale nerozbiehal Codex (maju len Windows Store aplikaciu = opovrhujem) ani Claude Code (to este mozno vyskusam). Kedze bezne pouzivam VS Code, tak som skusil KiloCode, alee... nejako mi to vyfailovalo. Chcel som sa pripojit na LM Studio, nutne to chcelo API kluc, tak som si vytvoril nejaky, ale aj tak to blblo. Skusil som RooCode a musim povedat, ze ten uvodny setup je o dost viac straight-forward. Napojil som sa na LM Studio (provider "LM Studio") aj llama.cpp (provider "OpenAI Compatible"). Taktiez mam za sebou uz prve pustenie agentov na adresar so embedded C zdrojakom a teda pekneee... to som chcel. Cize super, dostal som sa viacmenej tam, kde som chcel, a teraz uz ostava len dalej skusat.
Napriklad by ma zaujimalo, ci Claude Code napojeny na lokalny Qwen bude mat zasadne lepsie vysledky ako RooCode napojeny na rovnaky Qwen.
Nasiel som aj request na GitHube, ktory popisuje utilitku llama-fit-params, ktora vlastne presne spocita, ako najlepsie nastavit tento parameter pre dany HW, model a context window. Dostupna je aj vo Windows verzii, takze som to trosku otestoval. Ako testovaci model som si zobral Qwen3.6-35B-A3B-UD-Q8_K_XL.gguf. System je 5070Ti (16GB VRAM) a 96GB RAM. Pre moj system to vyhodilo toto (vo vsetkych prikazoch som namiesto -hf parametra pouzil -m, lebo modely uz mam na disku):
Kód: Vybrať všetko
> llama-fit-params.exe -m "Cela\Cesta\Qwen3.6-35B-A3B-UD-Q8_K_XL.gguf" -c 200000
-c 200000 -ngl 41 -ot "blk\.7\.ffn_(gate|gate_up|down).*=CPU,blk\.8\.ffn_(up|down|gate_up|gate)_(ch|)exps=CPU,blk\.9\.ffn_(up|down|gate_up|gate)_(ch|)exps=CPU,blk\.10\.ffn_(up|down|gate_up|gate)_(ch|)exps=CPU,blk\.11\.ffn_(up|down|gate_up|gate)_(ch|)exps=CPU,blk\.12\.ffn_(up|down|gate_up|gate)_(ch|)exps=CPU,blk\.13\.ffn_(up|down|gate_up|gate)_(ch|)exps=CPU,blk\.14\.ffn_(up|down|gate_up|gate)_(ch|)exps=CPU,blk\.15\.ffn_(up|down|gate_up|gate)_(ch|)exps=CPU,blk\.16\.ffn_(up|down|gate_up|gate)_(ch|)exps=CPU,blk\.17\.ffn_(up|down|gate_up|gate)_(ch|)exps=CPU,blk\.18\.ffn_(up|down|gate_up|gate)_(ch|)exps=CPU,blk\.19\.ffn_(up|down|gate_up|gate)_(ch|)exps=CPU,blk\.20\.ffn_(up|down|gate_up|gate)_(ch|)exps=CPU,blk\.21\.ffn_(up|down|gate_up|gate)_(ch|)exps=CPU,blk\.22\.ffn_(up|down|gate_up|gate)_(ch|)exps=CPU,blk\.23\.ffn_(up|down|gate_up|gate)_(ch|)exps=CPU,blk\.24\.ffn_(up|down|gate_up|gate)_(ch|)exps=CPU,blk\.25\.ffn_(up|down|gate_up|gate)_(ch|)exps=CPU,blk\.26\.ffn_(up|down|gate_up|gate)_(ch|)exps=CPU,blk\.27\.ffn_(up|down|gate_up|gate)_(ch|)exps=CPU,blk\.28\.ffn_(up|down|gate_up|gate)_(ch|)exps=CPU,blk\.29\.ffn_(up|down|gate_up|gate)_(ch|)exps=CPU,blk\.30\.ffn_(up|down|gate_up|gate)_(ch|)exps=CPU,blk\.31\.ffn_(up|down|gate_up|gate)_(ch|)exps=CPU,blk\.32\.ffn_(up|down|gate_up|gate)_(ch|)exps=CPU,blk\.33\.ffn_(up|down|gate_up|gate)_(ch|)exps=CPU,blk\.34\.ffn_(up|down|gate_up|gate)_(ch|)exps=CPU,blk\.35\.ffn_(up|down|gate_up|gate)_(ch|)exps=CPU,blk\.36\.ffn_(up|down|gate_up|gate)_(ch|)exps=CPU,blk\.37\.ffn_(up|down|gate_up|gate)_(ch|)exps=CPU,blk\.38\.ffn_(up|down|gate_up|gate)_(ch|)exps=CPU,blk\.39\.ffn_(up|down|gate_up|gate)_(ch|)exps=CPU,blk\.40\.ffn_(up|down|gate_up|gate)_(ch|)exps=CPU"Kód: Vybrať všetko
LM Studio default (iba context window = 200000):
12.12 t/s
> llama-server.exe --ctx-size 200000 --fit on --no-mmproj --jinja --flash-attn on --override-tensor ".*ffn_.*_exps\.=CPU" -m "Cela\Cesta\Qwen3.6-35B-A3B-UD-Q8_K_XL.gguf" --host 0.0.0.0
23.21 t/s
> llama-server.exe --ctx-size 200000 --fit on --no-mmproj --jinja --flash-attn on -ngl 41 --override-tensor "[ten_dlhy_string]" -m "Cela\Cesta\Qwen3.6-35B-A3B-GGUF\Qwen3.6-35B-A3B-UD-Q8_K_XL.gguf" --host 0.0.0.0
26.54 t/sAko takto... hram sa sice s LLLM, ale v ramci skusania mam zaplateny aj ChatGPT, Gemini a Claude naraz
Napriklad by ma zaujimalo, ci Claude Code napojeny na lokalny Qwen bude mat zasadne lepsie vysledky ako RooCode napojeny na rovnaky Qwen.
-
faugusztin
- Moderátor

- Príspevky: 15064
- Dátum registrácie: Ut 26. Feb, 2008, 14:00
- Bydlisko: Bratislava/Štúrovo
Re: local LLM, AI, Vibe Coding
No, to je otazka, ktoru ti ja uz nezodpoviem, ale v principe medzi Claude Code a RooCode v pripade pouzitia rovnakeho modelu budu rozdiely iba v tom, ze co ma ktory nastroj ako system prompt + ake nastroje poskytuje LLM. Ja osobne som mimo rychlosti prvotneho prompt processingu (Claude ma 20k+ prompt, Pi coding agent som aj po nastaveni mnozstva extra nastrojov dostal na nejakych 14k asi?) az tak velke rozdiely nebadal, ale mozu byt pripady ked ten prompt spravi rozdiel v tom ze ako sa model zachova.
-
LordKJ
- Sponzor fóra gold

- Príspevky: 8281
- Dátum registrácie: Po 28. Feb, 2011, 11:49
- Bydlisko: Bratislava
Re: local LLM, AI, Vibe Coding
my sme robili "benchmark" napr. claude vs droid - oba napojene na gcp vertex opus4.6 api + rovnaky prompt
pamatam si, ze to co droid urobil za ~2 min a subjektivne lepsie tak claude trvalo zhruba ~8 (ale toto bolo pred par mesiacmi) aj ked som bol nuteny premigrovat na cc tak to bolo zo zaciatku utrpenie
system prompt je urcite dolezity a dolezite je este asi aj ako to tam v tom harnesse pospajaju lebo rozdiely urcite su, ci to je ale v samotnom system prompte alebo default tooloch alebo nieco dalsom (ako cachuje, ako funguje compacting, ake indexy si udrziava, ako feeduje prompty, ci vie napr. spustat subagentov a pod) to uz neviem
pri lokalnom llm by sa to ale malo dat odchytit a pripadne prestudovat ako vyzeraju finalne prompty
pamatam si, ze to co droid urobil za ~2 min a subjektivne lepsie tak claude trvalo zhruba ~8 (ale toto bolo pred par mesiacmi) aj ked som bol nuteny premigrovat na cc tak to bolo zo zaciatku utrpenie
system prompt je urcite dolezity a dolezite je este asi aj ako to tam v tom harnesse pospajaju lebo rozdiely urcite su, ci to je ale v samotnom system prompte alebo default tooloch alebo nieco dalsom (ako cachuje, ako funguje compacting, ake indexy si udrziava, ako feeduje prompty, ci vie napr. spustat subagentov a pod) to uz neviem
pri lokalnom llm by sa to ale malo dat odchytit a pripadne prestudovat ako vyzeraju finalne prompty
main: 9950X + Noctua NH-D15 G2, ASUS STRIX B650E-F, Kingston 64gb DDR5 6000 CL30, 7900 GRE Nitro+, 990 Pro 4TB, ASUS STRIX Aura RGB 1000W, Fractal North XL + 4x Noctua A14x25 G2
- shiro
- Pokročilý používateľ

- Príspevky: 9343
- Dátum registrácie: Št 21. Dec, 2006, 02:00
- Bydlisko: Banska Bystrica
Re: local LLM, AI, Vibe Coding
Hmm, u mna to vypise maximalne napr:zoom napísal: Ne 03. Máj, 2026, 03:14 Nasiel som aj request na GitHube, ktory popisuje utilitku llama-fit-params, ktora vlastne presne spocita, ako najlepsie nastavit tento parameter pre dany HW, model a context window. Dostupna je aj vo Windows verzii, takze som to trosku otestoval.....
Kód: Vybrať všetko
-c 8192 -ngl 17Zavisi to od RAM/VRAM alebo od LLM modelu?
Pouzivam llama-fit-params.exe, kt. sa stiahla v zipku spolu s llama.cpp. Command mam:
Kód: Vybrať všetko
llama-fit-params.exe -m "E:\LM Studio models\mradermacher\gemma3-27b-abliterated-dpo-GGUF\gemma3-27b-abliterated-dpo.Q4_K_M.gguf" -c 8192Ryzen 7 3700X | SilentiumPC Fera 3 | Asrock X570M Pro4 | Kingston FURY 32GB DDR4 3600 MHz CL18 Beast Black | Gainward RTX4060 Ti Pegasus 8GB | Samsung 970evo Plus 250GB NVMe | Corsair MP510 1TB NVMe | Samsung 980 Pro 2TB NVMe | Corsair RM550x | 32" Samsung ViewFinity S60UA | 3x Noctua NF-S12B redux 1200 PWM
Xiaomi 14T 256GB
Xiaomi 14T 256GB
-
faugusztin
- Moderátor

- Príspevky: 15064
- Dátum registrácie: Ut 26. Feb, 2008, 14:00
- Bydlisko: Bratislava/Štúrovo
Re: local LLM, AI, Vibe Coding
Tieto veci funguju pre MoE modely. Ty skusas Gemma3-27B, co je "dense" model. Skus s MoE modelom, napriklad Gemma4-26B-A4B alebo Qwen3.6-35B-A3B.

