Экономика LLM-инференса: почему ваш финдир должен знать разницу между Prefill и Decode

Wait 5 sec.

В 2025 году рынок корпоративного ИИ-инференса составил  ~100 миллиардов долларов. Но парадокс в том, что успех автоматизации бизнес-процессов с помощью LLM зависит не только от выбора модели, а от глубокого понимания двух принципиально разных этапов работы нейросети: Prefill и Decode. Игнорирование их различий — самая дорогая ошибка в AI-инфраструктуре, которая может исказить реальную стоимость запроса в 10-50 раз.Два подхода для обработки одного запросаLLM-инференс — это не монолитный процесс, а две технологически несовместимые фазы. Prefill (обработка входящего промпта) — это пиковая вычислительная нагрузка. Модель загружает и анализирует весь входной контекст, создавая так называемый KV-кеш. Это высокопараллельная операция, которая нагружает тензорные ядра GPU на 90-95%.Как только модель начинает генерировать ответ по одному токену, начинается Decode. Это совершенно другой процесс - последовательный и лимитированный пропускной способностью памяти. Утилизация GPU на этой фазе драматически падает до 20-40%, а то и до 15-30%.Именно поэтому экономика «плоского тарифа за токен» в корне неверна. Запрос на 2000 токенов промпта с 50 токенами ответа потребляет в разы больше ресурсов GPU, чем запрос с 10 токенами промпта и длинной генерацией на 2000 токенов, хотя общее число токенов сопоставимо.Железо решает: скорость в час пикСвязывать обе фазы с одной и той же дорогой железкой — все равно что возить на суперкаре почту в час пик. Как это выглядит на рынке GPU:NVIDIA H100 (80GB) — флагман за $25-35 тысяч за карту. Его массивные тензорные ядра и архитектура Transformer Engine идеальны для быстрого Prefill, но на Decode простаивают, ограниченные пропускной способностью памяти. Читать далее