Breaking24

Subiect: #transformatoare

Cum să construiești transformatoare eficiente din punct de vedere al memoriei cu xFormers folosind secvențe împachetate, GQA, ALiBi, SwiGLU și atenție cauzală

xFormers optimizează transformatoarele pe GPU-uri prin atenție eficientă, secvențe împachetate, GQA, ALiBi și SwiGLU, reducând memoria cu până la 40% și accelerând antrenamentul.

🕒 2 săptămâni în urmă

Parallax: Noua arhitectură de atenție care păstrează softmax-ul, dar adaugă o ramură de corecție a covarianței

Parallax este o nouă arhitectură de atenție care păstrează funcția softmax a transformatoarelor clasice și adaugă, în paralel, o ramură ușoară de corecție a covarianței, învățată din date. Combinația promite contexte mai lungi, costuri mai mici și o acuratețe comparabilă cu modelele de top.

🕒 1 luni în urmă

Filtrează articolele

Subiect: #transformatoare

Cum să construiești transformatoare eficiente din punct de vedere al memoriei cu xFormers folosind secvențe împachetate, GQA, ALiBi, SwiGLU și atenție cauzală

Parallax: Noua arhitectură de atenție care păstrează softmax-ul, dar adaugă o ramură de corecție a covarianței