Лучший ИИ-агент, который не слушается: Claude Fable 5 возглавил новый бенчмарк Agent Arena

Wait 5 sec.

Платформа Arena (бывшая LMArena) опубликовала обновленные результаты Agent Arena — нового лидерборда, который оценивает модели по тому, как они справляются с реальными рабочими задачами в агентском режиме. Первое место занял Claude Fable 5 от Anthropic с общим показателем +11,2% — это улучшение результата относительно средней модели (рейтинг постоянно обновляется, так что текущие цифры могут отличаться). Но есть и ложка дегтя: по управляемости новый флагман оказался лишь 17-м из 23 участников. Читать далее