#agenți AI - Pagină 6

AI

NVIDIA AI-Q și modelele Llama Nemotron: O nouă eră pentru agenții de cercetare open-source

NVIDIA AI-Q Blueprint, un agent de cercetare profund open-source, a atins performanțe de top pe DeepResearch Bench, demonstrând că modelele deschise pot depăși alternativele proprietare. Arhitectura combină modelele Llama 3.3 și Nemotron pentru a oferi raționament complex, transparență totală și implementare flexibilă.

🕒 3 luni în urmă

AI

NVIDIA AI prezintă ProRL Agent: O infrastructură decuplată de tip „Rollout-as-a-Service” pentru învățarea prin întărire a agenților LLM multi-turn la scară largă

Cercetătorii de la NVIDIA au lansat ProRL Agent, o infrastructură scalabilă care revoluționează antrenarea agenților LLM prin decuplarea procesului de colectare a experiențelor (rollout) de bucla de antrenament, rezolvând astfel conflictele majore de resurse care îngreunează dezvoltarea AI-ului la scară largă.

🕒 3 luni în urmă

AI

Indicele Hype AI: Inteligența Artificială merge la război

Industria inteligenței artificiale traversează o criză majoră: de la disputele etice dintre Anthropic și Pentagon, la protestele stradale din Londra și fenomenul viral al agenților AI care își inventează propriile religii. Linia dintre inovație și militarizare devine din ce mai subțire.

🕒 3 luni în urmă

AI

Gaia2 și ARE: Noile Frontiere în Evaluarea și Dezvoltarea Agenților AI Autonomi

Lansarea Gaia2 și a framework-ului Meta Agents Research Environments (ARE) marchează o evoluție majoră în evaluarea agenților AI, trecând de la teste statice la scenarii interactive complexe, care includ gestionarea timpului, ambiguității și eșecurilor tehnice.

🕒 3 luni în urmă

AI

Construirea Ecosistemului Open Agent Împreună: Prezentarea OpenEnv

Meta-PyTorch și Hugging Face lansează OpenEnv, un standard deschis pentru medii agențiale care redefinesc antrenamentul și implementarea AI. Acest ecosistem oferă siguranță, scalabilitate și un cadru standardizat pentru dezvoltarea agenților autonomi.

🕒 3 luni în urmă

AI

Aliniere la Ce? Reevaluarea Generalizării Agenților în MiniMax M2

Articolul explorează provocările fundamentale în dezvoltarea agenților AI, punând în contrast performanța la benchmark-uri cu utilitatea reală. Se discută conceptul de „Gândire Intercalată” și importanța menținerii contextului complet pentru performanța optimă a modelului MiniMax M2.

🕒 3 luni în urmă

AI

Construirea Deep Research: Cum am atins performanța de ultimă generație (State of the Art)

O analiză detaliată a procesului de dezvoltare a sistemului Deep Research, evidențiind importanța ingineriei contextului, gestionarea eficientă a tokenilor și trecerea de la fluxuri de lucru la agenți autonomi pentru a atinge performanța de ultimă generație.

🕒 3 luni în urmă

AI

CUGA pe Hugging Face: Democratizarea Agenților AI Configurabili pentru Era Enterprise

CUGA (Configurable Generalist Agent) revoluționează peisajul AI enterprise prin democratizarea accesului la agenți AI complecși. Aflați despre arhitectura sa inovatoare, performanțele de top pe WebArena și integrarea cu platforme open-source precum Hugging Face și Langflow.

🕒 3 luni în urmă

AI

Open Responses: Revoluția Inferenței AI dincolo de Era Chatbot-urilor

Open Responses redefinește standardul inferenței AI, trecând de la modelul conversațional la sisteme autonome capabile de raționament complex și execuție de sarcini multi-eta, oferind transparență și interoperabilitate într-un format open-source.

🕒 3 luni în urmă

AI

AssetOpsBench: Puntea dintre benchmark-urile AI și realitatea industrială – Un nou standard pentru evaluarea agenților inteligenți

AssetOpsBench reprezintă o evoluție necesară în evaluarea agenților AI, trecând de la simplul succes binar la o analiză complexă a eșecurilor în medii industriale reale. Acest cadru innovator evidențiază lacunele critice ale modelelor actuale în coordonarea multi-agent și gestionarea incertitudinii operaționale.

🕒 3 luni în urmă

AI

OpenEnv în Practică: Evaluarea Agenților care Utilizează Instrumente în Medii Reale

OpenEnv, un cadru open-source de la Meta și Hugging Face, standardizează interacțiunea agenților AI cu medii reale. Acest articol explorează Calendar Gym, un benchmark de producție dezvoltat de Turing, și analizează provocările critice în raționamentul multi-pas, rezoluția ambiguităților și utilizarea corectă a instrumentelor, oferind o perspectivă detaliată asupra limitărilor actuale ale agenților AI.

🕒 3 luni în urmă

AI

IBM și UC Berkeley diagnostichează motivele eșecului agenților enterprise folosind IT-Bench și MAST

Un studiu realizat de IBM și UC Berkeley utilizează taxonomia MAST pentru a diseca eșecurile agenților AI în medii enterprise, dezvăluind diferențele critice dintre modelele de frontieră și cele open-source și oferind o metodologie clară pentru diagnosticarea și remedierea erorilor sistematice.

🕒 3 luni în urmă

Filtrează articolele

Subiect: #agenți AI

NVIDIA AI-Q și modelele Llama Nemotron: O nouă eră pentru agenții de cercetare open-source

NVIDIA AI prezintă ProRL Agent: O infrastructură decuplată de tip „Rollout-as-a-Service” pentru învățarea prin întărire a agenților LLM multi-turn la scară largă

Indicele Hype AI: Inteligența Artificială merge la război

Gaia2 și ARE: Noile Frontiere în Evaluarea și Dezvoltarea Agenților AI Autonomi

Construirea Ecosistemului Open Agent Împreună: Prezentarea OpenEnv

Aliniere la Ce? Reevaluarea Generalizării Agenților în MiniMax M2

Construirea Deep Research: Cum am atins performanța de ultimă generație (State of the Art)

CUGA pe Hugging Face: Democratizarea Agenților AI Configurabili pentru Era Enterprise

Open Responses: Revoluția Inferenței AI dincolo de Era Chatbot-urilor

AssetOpsBench: Puntea dintre benchmark-urile AI și realitatea industrială – Un nou standard pentru evaluarea agenților inteligenți

OpenEnv în Practică: Evaluarea Agenților care Utilizează Instrumente în Medii Reale

IBM și UC Berkeley diagnostichează motivele eșecului agenților enterprise folosind IT-Bench și MAST