Center for AI Safety (CAIS) и Scale Labs обновили результаты Remote Labor Index (RLI) — бенчмарка, который проверяет ИИ-агентов не на синтетических тестах, а на настоящих фриланс-заказах: 3D и CAD, архитектура, дизайн, видео и анимация, аудио, аналитика данных, веб-приложения. Живой эксперт сравнивает работу агента с эталонной работой оплаченного профессионала, и решает, справился ли ИИ. Новая модель Claude Fable 5 показала лучший результат за всю историю теста по ключевой метрике automation rate (доля проектов, принятых как минимум наравне с человеческой работой) — 16,1%. Это почти вдвое больше, чем у Opus 4.8 (8,3%), и еще больше, чем у GPT-5.5 (6,3%). Читать далее