V skratke ten model je moc velky na 64 Gb, mozno ho rozchodis ale offload cez CPU. Odporam RAM nastavit na 32/32. lebo potrebujes mat este nejake rezervy na kontext a pod veci, system adt. A dat naloadovat model iba do velkosti vRAM.lepermessiah napísal: St 11. Feb, 2026, 14:42 OK, ja asi nebudem dobra vzorka na totookrem toho, ze vlastne 2 tyzdne bojujem s tym, aby mi aspon nejako fungoval OS na tom uzasnom laptope, tak pocas generovania to vyuzivalo GPU na 10% a CPU na 38% v priemere, cize bude asi nie idealne porieseny environment pre beh LLM. Videl som, ze sa riesia nejake ROCm a neviem co pre AMD GPU ale mna to akosi obchadza, zatial som vo faze, aby mi aspon monitor zaplo ked pripojim kabel
Vysledky viac ako smiesne .. 5.53 tok/sec | 1860 tokens | 13.17s (a to som si vypol prehliadace a Electron appky, aby mi to zralo menej RAM, no ten model mi v RAM berie len 20GB, co je asi dost malo)
EDIT: ked som dal na GPU Offload zo 7 na 25, tak mi GPU zataz stupla na 25%, ale .. 6.59 tok/sec | 1945 tokens | 8.66s. Teda predpokladam, ze ja to CPU/GPU budem mat uplne zle poriesene, ale s tym Strix Halo je peklo cokolvek rozchodit, polka veci v tom notebooku nefunguje ani na predinstalovanom Ubuntu. To by sa na Inteli nestalo.
local LLM, AI, Vibe Coding
Re: local LLM, AI, Vibe Coding
Spoiler: ukázať

