С чего начать тестирование LLM: 5 проверок из практики

Wait 5 sec.

Вам дали фичу на LLM — чат-бот, агент, голосовой ответчик. Привычное «шаг 1, шаг 2, ожидаемый результат» не работает: ответы плавают, эталона нет, а «зелёный прогон» вчера ничего не гарантирует сегодня.Знакомо? В [первой статье]я разбирала, почему классический QA ломается на LLM. Но между «я понял проблему» и «я пишу фреймворк» есть пропасть: а что конкретно проверить в первую неделю?Вот 5 проверок, с которых я начинаю на новом LLM-проекте. Без кода, без фреймворков — только подход. Код будет потом, когда станет ясно, что именно автоматизировать. Читать далее