Как мы проектировали multi-agent feedback для обучения рисованию

Wait 5 sec.

Написал инженерный разбор про multi-agent feedback для обучения рисованию.Что происходит, когда рисунок оценивает не один AI-критик, а «совет»: три LLM-персоны на разных моделях + четвёртый вызов-судья, который собирает их отзывы в общий вердикт.Без хайпа: технические параметры, компромиссы и грабли из реальной реализации.— почему это 4 логических вызова, а в two-stage режиме физически до 7; — как судья работает text-only и НЕ видит рисунок: он проверяет согласованность трёх разборов, а не пересматривает изображение; — честная latency: wall-clock = max(самая медленная персона с retry) + судья, а не сумма трёх персон; — почему council получается в 3–4 раза дороже single-critic; — где «больше моделей» оказалось хуже: слабый судья ронял качество, пришлось вводить quality gate и математический fallback; — где обычный single-critic объективно выигрывает: быстрая итерация, latency, стоимость.Если строите multi-agent / ensemble / judge-паттерны, внутри есть конкретные грабли: галлюцинации персон, эхо плейсхолдера из промпта в ответ судьи, consensus-фильтр поверх финального вердикта. Читать далее