OpenAI отказалась от SWE-bench Verified: 54% задач сломаны на уровне теста, плюс контаминация. Чем заменяют — в разборе с цифрами и пруфами.— Читать дальше «OpenAI отказалась от SWE-bench Verified: бенчмарк сломан»