xFormers optimizează transformatoarele pe GPU-uri prin atenție eficientă, secvențe împachetate, GQA, ALiBi și SwiGLU, reducând memoria cu până la 40% și accelerând antrenamentul.
Parallax este o nouă arhitectură de atenție care păstrează funcția softmax a transformatoarelor clasice și adaugă, în paralel, o ramură ușoară de corecție a covarianței, învățată din date. Combinația promite contexte mai lungi, costuri mai mici și o acuratețe comparabilă cu modelele de top.
Acest site folosește cookie-uri pentru a-ți oferi o experiență de navigare cât mai plăcută. Continuarea navigării implică acceptarea acestora.