GPT-5 показал рекорд в многошаговых задачах. Это поможет при создании агентов

Wait 5 sec.

Исследователи из Кембриджа, Института Макса Планка и сети ELLIS опубликовали работу The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs, посвященную способности больших языковых моделей выполнять многошаговые задачи. Обычно эффективность LLM оценивают по коротким заданиям — ответил правильно или нет. Но в реальных сценариях важны и длинные цепочки действий — например, для агентов, работающих по 20-30 минут. Читать далее