Как тестировать 5 LLM-агентов одним набором тестов: capability-based подход

Wait 5 sec.

В [прошлой статье](https://habr.com/ru/articles/1049482/) я разбирала, почему классический QA ломается на LLM: нет одного эталонного ответа, один и тот же тест плавает от прогона к прогону, зелёный прогон ничего не гарантирует. Это была статья про осознание проблемы.Эта — про то, как с этим жить в коде, когда агентов не один, а несколько. Читать далее