Платформа Arena (бывшая LMArena) опубликовала обновленные результаты Agent Arena — нового лидерборда, который оценивает модели по тому, как они справляются с реальными рабочими задачами в агентском режиме. Первое место занял Claude Fable 5 от Anthropic с общим показателем +11,2% — это улучшение результата относительно средней модели (рейтинг постоянно обновляется, так что текущие цифры могут отличаться). Но есть и ложка дегтя: по управляемости новый флагман оказался лишь 17-м из 23 участников. Читать далее