#Inferență | Breaking 24

AI

Fostul șef AI de la Databricks crede că poate reduce factura de energie a AI-ului de 1.000 de ori

Naveen Rao, fostul șef AI de la Databricks, lansează Unconventional AI, o companie care promite să reducă consumul de energie al inferenței AI de 1.000 de ori, folosind o arhitectură bazată pe oscilatori. Primul model, Un0, demonstrează fezabilitatea tehnologiei.

🕒 6 zile în urmă

OpenAI își lansează primul cip personalizat, construit împreună cu Broadcom

OpenAI a dezvăluit primul său cip personalizat, Jalapeño, construit cu Broadcom, special pentru inferență. Cipul promite o eficiență energetică superioară și reduce dependența de Nvidia, marcând o schimbare strategică majoră în infrastructura AI.

🕒 1 săptămâni în urmă

AI

Startupul de inferență AI Baseten ar urma să strângă 1,5 miliarde de dolari, la doar câteva luni după runda uriașă anterioară

Startupul de inferență AI Baseten este pe cale să strângă 1,5 miliarde de dolari la o evaluare de 13 miliarde, la doar cinci luni după o rundă de 300 de milioane. Runda are prețuri diferențiate, iar investitorii includ Spark Capital, Sands Capital, Altimeter Capital și Wellington Management.

🕒 1 săptămâni în urmă

AI

După „neachiziția” de 20 de miliarde de dolari de la Nvidia, startup-ul de cipuri AI Groq strânge 650 de milioane de dolari

Startup-ul Groq, cunoscut pentru cipurile sale AI specializate în inferență, strânge 650 de milioane de dolari de la investitori existenți, la scurt timp după un acord spectaculos cu Nvidia, evaluat la 20 de miliarde de dolari. Fondurile vor fi folosite pentru extinderea cloud-ului de inferență, un domeniu tot mai important în inteligența artificială.

🕒 1 luni în urmă

AI

După mega-afacerea de 20 de miliarde de dolari cu Nvidia, startup-ul de cipuri AI Groq strânge 650 de milioane de dolari

Startup-ul Groq, cunoscut pentru cipurile sale AI specializate în inferență, se pregătește să atragă 650 de milioane de dolari de la investitorii existenți, la doar câteva luni după un acord de 20 de miliarde de dolari cu Nvidia. Fondurile vor fi folosite pentru extinderea cloud-ului de inferență, o piață în plină expansiune, unde Groq vrea să concureze direct cu gigantul Nvidia.

🕒 1 luni în urmă

AI

A început vânătoarea pentru puterea de calcul AI? General Compute, noul „Cerebras” al inferenței

General Compute, un startup specializat în inferență AI, a strâns 15 milioane de dolari pentru a implementa cipuri SambaNova care promit de 2-3 ori mai multă viteză decât GPU-urile. Compania vrea să devină noul standard pentru rularea modelelor AI, rezolvând criza de cipuri și infrastructură.

🕒 1 luni în urmă

AI

EAGLE 3.1: Algoritmul de decodare speculativă care repară deriva atenției în inferența modelelor de limbaj

EAGLE 3.1 este un algoritm de decodare speculativă care corectează deriva atenției în inferența modelelor de limbaj, reducând latența cu până la 60% și menținând calitatea textului generat.

🕒 1 luni în urmă

AI

Cipul Vera de la Nvidia: pariul de 200 de miliarde de dolari pe care Jensen Huang nu vrea să-l ignori

Nvidia a raportat venituri record, dar adevărata știre este cipul Vera, care vizează o piață de 200 de miliarde de dolari în inferență AI. CEO-ul Jensen Huang mizează pe acest procesor pentru a contracara concurența din partea Google, Amazon și Microsoft, care își construiesc propriile cipuri. Cu toate acestea, problemele de aprovizionare și scăderea acțiunilor după anunț arată că pariul este departe de a fi câștigat.

🕒 1 luni în urmă

AI

Google Cloud lansează două noi cipuri AI pentru a compete cu Nvidia: TPU 8t și TPU 8i

Google Cloud a lansat două noi cipuri AI — TPU 8t pentru antrenament și TPU 8i pentru inferență — oferind până la 3x mai multă viteză și 80% mai bună performanță pe dolar, în timp ce continuă să colaboreze cu Nvidia pentru a optimiza infrastructura de AI în cloud.

🕒 2 luni în urmă

AI

Optimizarea spațiilor ZeroGPU prin compilarea ahead-of-time: Ghid complet pentru performanță maximă

Compilarea ahead-of-time (AoT) revoluționează performanța modelelor ML în spațiile ZeroGPU de la Hugging Face, eliminând timpii de pornire la rece și oferind accelerări de 1.3×-1.8×. Acest ghid detaliază implementarea tehnică, de la capturarea intrărilor până la integrarea în pipeline, explorând și tehnici avansate precum cuantizarea FP8 și FlashAttention-3.

🕒 3 luni în urmă

AI

Scaleway devine furnizor oficial de inferență AI pe Hugging Face Hub

Scaleway se integrează oficial pe Hugging Face Hub ca furnizor de inferență, oferind acces serverless la modele AI de top, cu infrastructură europeană, prețuri competitive și latență redusă pentru dezvoltatori.

🕒 3 luni în urmă

AI

Batching continuu: De la primele principii la optimizarea inferenței AI

Articolul explorează mecanismele fundamentale ale inferenței în modelele de limbaj de mari dimensiuni, de la atenție și KV caching până la batching-ul continuu, explicând cum aceste tehnici optimizează throughput-ul în scenarii de servire în sarcină ridicată.

🕒 3 luni în urmă

Filtrează articolele

Subiect: #Inferență

Fostul șef AI de la Databricks crede că poate reduce factura de energie a AI-ului de 1.000 de ori

OpenAI își lansează primul cip personalizat, construit împreună cu Broadcom

Startupul de inferență AI Baseten ar urma să strângă 1,5 miliarde de dolari, la doar câteva luni după runda uriașă anterioară

După „neachiziția” de 20 de miliarde de dolari de la Nvidia, startup-ul de cipuri AI Groq strânge 650 de milioane de dolari

După mega-afacerea de 20 de miliarde de dolari cu Nvidia, startup-ul de cipuri AI Groq strânge 650 de milioane de dolari

A început vânătoarea pentru puterea de calcul AI? General Compute, noul „Cerebras” al inferenței

EAGLE 3.1: Algoritmul de decodare speculativă care repară deriva atenției în inferența modelelor de limbaj

Cipul Vera de la Nvidia: pariul de 200 de miliarde de dolari pe care Jensen Huang nu vrea să-l ignori

Google Cloud lansează două noi cipuri AI pentru a compete cu Nvidia: TPU 8t și TPU 8i

Optimizarea spațiilor ZeroGPU prin compilarea ahead-of-time: Ghid complet pentru performanță maximă

Scaleway devine furnizor oficial de inferență AI pe Hugging Face Hub

Batching continuu: De la primele principii la optimizarea inferenței AI