Prime Intellect a lansat prime-rl 0.6.0, un cadru open-source pentru învățare prin întărire asincronă pe modele MoE de trilioane de parametri. Cu optimizări precum inferența FP8, paralelism expert larg și disociere prefill/decode, a antrenat GLM-5 pe sarcini SWE cu performanțe remarcabile pe doar 28 de noduri H200.
Află cum poți comprima modelele lingvistice instruite (instruction-tuned LLMs) folosind FP8, GPTQ și SmoothQuant cu ajutorul bibliotecii llmcompressor. Articolul explică pașii de implementare, rezultatele benchmark-urilor și importanța cuantizării pentru eficiență și accesibilitate.
Acest site folosește cookie-uri pentru a-ți oferi o experiență de navigare cât mai plăcută. Continuarea navigării implică acceptarea acestora.