Модели набирали 80% на бенчмарке OpenAI. Оказалось, они просто запомнили решения

Wait 5 sec.

Компания OpenAI перестала использовать SWE-bench Verified — один из самых популярных бенчмарков для оценки того, насколько хорошо ИИ справляется с реальными задачами по программированию. Компания сама создала этот бенчмарк в 2024 году.Суть SWE-bench Verified: модели получают описание бага из GitHub-репозитория и должны сами написать патч, который его починит. 500 задач, проверенных вручную инженерами. За полтора года бенчмарк стал стандартом — результаты по нему указывали в каждом релизе новой модели.Проблемы нашли две. Читать далее