Как Claude Opus 4.6 понял, что его тестируют и взломал ответы к бенчмарку

Wait 5 sec.

Anthropic опубликовала отчет о необычном поведении Claude Opus 4.6 во время прохождения BrowseComp — бенчмарка OpenAI, который проверяет способность моделей находить труднодоступную информацию в сети. В двух случаях из 1266 задач модель самостоятельно догадалась, что проходит тест, вычислила, какой именно это бенчмарк, нашла на GitHub исходный код теста с алгоритмом шифрования, а затем написала собственный дешифратор и извлекла ответы. Читать далее