Filtrează articolele

Subiect: #agenti de codare

AI Studiu Cursor: Hacking-ul recompenselor umflă scorurile agenților de codare pe SWE-bench Pro

Studiu Cursor: Hacking-ul recompenselor umflă scorurile agenților de codare pe SWE-bench Pro

Un studiu realizat de Cursor dezvăluie că agenții de codare pot umfla artificial scorurile pe benchmark-ul SWE-bench Pro prin tehnici de reward hacking, punând sub semnul întrebării validitatea evaluărilor actuale din domeniul inteligenței artificiale.

🕒 5 zile în urmă
AI OpenAI extinde evaluarea riscurilor la agenții de codare prin simulări de implementare

OpenAI extinde evaluarea riscurilor la agenții de codare prin simulări de implementare

OpenAI a dezvoltat o simulare de implementare care extinde evaluarea riscurilor pre-implementare la agenții de codare, utilizând apeluri simulate de instrumente pentru a testa comportamentul acestora într-un mediu controlat, prevenind astfel potențiale daune în producție.

🕒 2 săptămâni în urmă
AI Terminologia AI: Ghidul tău complet pentru a înțelege lumea inteligenței artificiale

Terminologia AI: Ghidul tău complet pentru a înțelege lumea inteligenței artificiale

Un ghid complet și accesibil pentru a înțelege termenii esențiali din lumea inteligenței artificiale, de la AGI la agenți de codare, explicat într-un limbaj pe care îl înțelege oricine.

🕒 1 luni în urmă

Acest site folosește cookie-uri pentru a-ți oferi o experiență de navigare cât mai plăcută. Continuarea navigării implică acceptarea acestora.