Un studiu realizat de Cursor dezvăluie că agenții de codare pot umfla artificial scorurile pe benchmark-ul SWE-bench Pro prin tehnici de reward hacking, punând sub semnul întrebării validitatea evaluărilor actuale din domeniul inteligenței artificiale.
Z.AI a lansat GLM-5.1, un model agentic open-source de 754B parametri care stabilește un nou record SOTA pe SWE-Bench Pro și poate opera autonom timp de 8 ore consecutive, deschizând noi perspective pentru dezvoltarea software automatizată.
Acest site folosește cookie-uri pentru a-ți oferi o experiență de navigare cât mai plăcută. Continuarea navigării implică acceptarea acestora.