GPT-5.5 и Opus 4.7 провалились в ARC-AGI-3. Вот почему

Wait 5 sec.

ARC Prize Foundation опубликовал детальный разбор того, как новейшие модели OpenAI и Anthropic проходят интерактивный бенчмарк ARC-AGI-3. GPT-5.5 набрала 0,43%, Opus 4.7 — 0,18%, тогда как люди решают эти задачи на 100%. Президент фонда Грег Камрадт изучил 160 записей прохождения вместе с цепочками рассуждений моделей и выделил три типичных паттерна провалов. Читать далее