ОpenAI призвала отказаться от использования SWE-bench Verified для оценки моделей

Wait 5 sec.

OpenAI рекомендовала разработчикам больше не использовать бенчмарк SWE-bench Verified для проверки способностей ИИ-моделей к программированию. Этот набор задач был создан самой компанией в 2024 году и быстро стал одним из ключевых стандартов для сравнения coding-моделей. Читать далее