Opus 4.7 галлюцинирует в два раза реже Opus 4.6 — при той же точности

Wait 5 sec.

Независимый бенчмарк AA-Omniscience зафиксировал у новой Claude Opus 4.7 почти двукратное снижение галлюцинаций — когда у модели нет ответа на вопрос, она выдумывает его в 32% случаев, а в остальных говорит "не знаю". У Opus 4.6 этот показатель составлял 61%. Точность ответов на сложные вопросы при этом осталась на прежнем уровне, около 46%. Anthropic улучшила не объем знаний модели, а ее калибровку — способность признавать незнание вместо фабрикации ответа. Читать далее