V navaznosti na tieto posledne veci, co sme tu riesili - hral sa niekto teraz s tymi novymi MTP modelmi? Cize napriklad
Qwen3.6-35B-A3B-MTP-GGUF od Unslotha, kde sa slubuje masivne 1.5-2x zrychlenie v
peknych grafoch a ludia aj s biednou 5080 s 16GB VRAM
nameraju zasadne zrychlenie (aj ked Q3 modelu).
Llama-cpp asi 3 dni dozadu pridalo podporu pre MTP modely, tak teda idem vyskusat.
- Moj terajsi vytuneny string (non-MTP model): 27.35 tok/s
- Pridal som tam --spec-type draft-mtp a odkazal ho na novy MTP model: 9.9 tok/s
- Okej, mozno tento model treba opat vytunit. Tak som ho prehnal cez llama-fit-params a pouzil novy override-tensor string: 7.27 tok/s
- Dobre vezmem ten isty string bez parametrov --fit on --no-mmproj --jinja --flash-attn on --cache-type-k q8_0 --cache-type-v q8_0: 28.48 tok/s
Tak som sa aspon dostal na zaciatok, ale ako far cry oproti slubom z internetu. Prilis som sa s tym nehral, a teraz uz chcem ist spat. Ak niekto nebude mat nejake instantne riesenie, tak to este pokukam. Len som cakal, ze to bude taky jednoduchy drop-in replacement, ze tuto dame novy model, doplnime parameter do command-line a zrazu mame dalsie zrychlenie.