Trosicku ozivime topic. Mate nejaky pokrok a dalsie skusenosti s lokalnymi LLM (konkretnymi modelmi)? Co pouzivate na pokec/info, co sa osvedcilo na programovanie, pripadne agentic veci.
Po narastie cien RAM som radsej vybavil doma pocitace s 96GB RAM, nech sa mozem hrajkat trochu. Zistujem, ze je to take trochu hluche miesto co do velkosti modelov. Ked sa hybeme vo svete aspon Q6_K_XL quantizacie, idealne vsak Q8 ci F16, tak vela popularnych modelov je tak 30-70GB (
gpt-oss-120b,
glm-4.5-air,
qwen3-next-80b-a3b-thinking,
olmo-3-32b-think) alebo potom az uplne mimo 150-600GB (
glm-4.6,
Kimi-K2,
MiniMax-M2,
DeepSeek-R1 a ine).
Co do vykonu modely, s ktorymi sa najviac hram (5070 Ti 16GB, 96GB RAM, rovnaky vstupny text):
Kód: Vybrať všetko
gpt-oss-120b (F16): Thought for 50.60 seconds 7.03 tok/sec • 4647 tokens • 3.39s to first token
qwen3-next-80b-a3b-thinking (Q6_K_XL): Thought for 1 minutes 36 seconds 5.57 tok/sec • 2467 tokens • 2.17s to first token
glm-4.5-air (Q4_K_XL): Thought for 1 minutes 47 seconds 3.96 tok/sec • 2203 tokens • 6.41s to first token
olmo-3-32b-think (BF16): Thought for 28 minutes 45 seconds 0.73 tok/sec • 2617 tokens • 4.48s to first token
Netusim, preco je ten novy Olmo-3 nasobne pomalsi (6-10x pomalsi). Ale inak odpisuju k veci. Zrovna dnes som to znovu porovnaval a mozno na prvy pohlad by som prisudil
Qwen3-Next malu vyhru - pacili sa mi odpovede, ktore obsahovali aj vyslovene "negativne" veci akoze toto nebude fungovat, takto nie, toto nie, toto nepomoze vobec, atd.
Navyse
gpt-oss a
qwen3-next v LM Studio aj pomenuvaju tie chaty v lavom stlpci. Male az vacsie plus.
Ale zaujimalo by ma, komu sa co osvedcilo na programovanie. Ked si citam internety, tak kazdy tyzden je to nejaka ina uplne prevratna vec. Ked nie
qwen3-coder-30b, tak
aquif-3.5-max-42b. A ked nie to, tak potom
kwaipilot_kat-dev-72b, ale len do prichodu toho a tamtoho...