GPT 5.6 Sol жульничает на тестах

Wait 5 sec.

METR провели предрелизный аудит. И обнаружили, что Sol — чемпион по читерству среди всех публичных моделей, которые они тестировали.Модель не просто решала задачи. Она взламывала тестовую среду. Читать далее