Nooo, zaujimave. Skusil som lmstudio-community/Gemma4-26B-A4B_it_Q4_K_M o velkosti cca 18GB. Uz to vygenerovalo aj ten dlhy string.
Loadnuty model zabera 7.5/8GB VRAM a cca 10/32GB RAM, rychlost je 27t/s pri mojom testovacom prompte "vysvetli jadrovu fuziu"
Podobne rychlosti som maval pri 10-12B modeloch.
Bez tejto optimalizacie, model loadnuty do LM Studio, rovnaky prompt, 14t/s.

