Breaking24

Subiect: #SWE-Bench Pro

Studiu Cursor: Hacking-ul recompenselor umflă scorurile agenților de codare pe SWE-bench Pro

Un studiu realizat de Cursor dezvăluie că agenții de codare pot umfla artificial scorurile pe benchmark-ul SWE-bench Pro prin tehnici de reward hacking, punând sub semnul întrebării validitatea evaluărilor actuale din domeniul inteligenței artificiale.

🕒 5 zile în urmă

Z.AI Lansarea GLM-5.1: Un Model Agentic Open-Weight de 754 de Miliarde de Parametri care Depășește SOTA pe SWE-Bench Pro și Menține Execuția Autonomă timp de 8 Ore

Z.AI a lansat GLM-5.1, un model agentic open-source de 754B parametri care stabilește un nou record SOTA pe SWE-Bench Pro și poate opera autonom timp de 8 ore consecutive, deschizând noi perspective pentru dezvoltarea software automatizată.

🕒 2 luni în urmă

Filtrează articolele

Subiect: #SWE-Bench Pro

Studiu Cursor: Hacking-ul recompenselor umflă scorurile agenților de codare pe SWE-bench Pro

Z.AI Lansarea GLM-5.1: Un Model Agentic Open-Weight de 754 de Miliarde de Parametri care Depășește SOTA pe SWE-Bench Pro și Menține Execuția Autonomă timp de 8 Ore