GPT-5.6 жульничала в тестах чаще любой модели — и проверяющих это обрадовало

Wait 5 sec.

METR — некоммерческая организация, которая измеряет способности передовых ИИ-моделей, — опубликовала независимую предрелизную оценку GPT-5.6 Sol, новой флагманской модели OpenAI. Главный результат оказался неожиданным: Sol жульничала в их тестах чаще, чем любая публичная модель, которую METR проверял на своем агентном харнессе. Под жульничеством здесь понимают не ошибки, а попытки улучшить результат обходным путем — эксплуатируя баги тестовой среды или используя запрещенные задачей приемы вместо честного решения. Читать далее