Opus 4.8 поставил рекорд в сложнейшем ИИ-бенчмарке. Результат — 1,4%

Wait 5 sec.

Claude Opus 4.8 занял первое место в ARC-AGI-3 — интерактивном тесте на общий интеллект, который до сих пор не дается ни одной модели. Версия в режиме High стала новым лидером с результатом 1,4% на закрытом наборе (1,5% на публичном лидерборде) при стоимости прогона около 10 тысяч долларов. Для сравнения: месяцем ранее Opus 4.7 набирала здесь 0,18%, а GPT-5.5 — 0,43%. Люди решают эти задачи на 100%. Читать далее