local LLM, AI, Vibe Coding

Sekcia o programovaní, programovacích jazykoch...
Používateľov profilový obrázok
shiro
Pokročilý používateľ
Pokročilý používateľ
Príspevky: 9344
Dátum registrácie: Št 21. Dec, 2006, 02:00
Bydlisko: Banska Bystrica

Re: local LLM, AI, Vibe Coding

Príspevok od používateľa shiro »

Gemma 3 nieje MoE? Alebo nieje Gemma ako Gemma? :-)

Nooo, zaujimave. Skusil som lmstudio-community/Gemma4-26B-A4B_it_Q4_K_M o velkosti cca 18GB. Uz to vygenerovalo aj ten dlhy string.
Loadnuty model zabera 7.5/8GB VRAM a cca 10/32GB RAM, rychlost je 27t/s pri mojom testovacom prompte "vysvetli jadrovu fuziu"
Podobne rychlosti som maval pri 10-12B modeloch.

Bez tejto optimalizacie, model loadnuty do LM Studio, rovnaky prompt, 14t/s.
Ryzen 7 3700X | SilentiumPC Fera 3 | Asrock X570M Pro4 | Kingston FURY 32GB DDR4 3600 MHz CL18 Beast Black | Gainward RTX4060 Ti Pegasus 8GB | Samsung 970evo Plus 250GB NVMe | Corsair MP510 1TB NVMe | Samsung 980 Pro 2TB NVMe | Corsair RM550x | 32" Samsung ViewFinity S60UA | 3x Noctua NF-S12B redux 1200 PWM
Xiaomi 14T 256GB
faugusztin
Moderátor
Moderátor
Príspevky: 15065
Dátum registrácie: Ut 26. Feb, 2008, 14:00
Bydlisko: Bratislava/Štúrovo

Re: local LLM, AI, Vibe Coding

Príspevok od používateľa faugusztin »

zoom napísal: Ne 03. Máj, 2026, 03:14llama-fit-params
Len pre porovnanie, mne s 200k contextom, q4 k/v cache (za cenu nizsej spotreby RAM a vyssej rychlosti) pri nastaveni a modeli unsloth/Qwen3.6-35B-A3B-GGUF v UD-IQ3_XXS kvantizacii obsadi ~13GB VRAM a pri uvodnom requeste z Claude Code (~27k tokenov) mi to robi prompt processing 3378t/s a generovanie 56.5t/s na 4080 Super + 9950X + 64GB DDR5-6000CL30:

Kód: Vybrať všetko

--ctx-size 200000 --fit on --no-mmproj --jinja --flash-attn on --cache-type-k q4_0 --cache-type-v q4_0 --override-tensor "blk\.39\.ffn_.*_exps=CPU,blk\.40\.ffn_.*_exps=CPU" -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-IQ3_XXS
Povodne to vygenerovalo presnejsie override, ale neslo mi to uplne spravne, tak som to upravil manualne. A tato rychlost je celkom OK, aj ked teda nadalej budem pouzivat 3.6-27B na mojom dedikovanom systeme s 2x 5070 Ti :D

Návrat na "Programovanie"