ASR на CPU. Как выбрать бэкенд, настроить Triton и не потерять в точности

Wait 5 sec.

Привет, Хабр! Меня зовут Владимир Никулин, я технический лидер команды продуктивизации нейросетевых решений в MWS AI. Мы развиваем платформу синтеза и распознавания речи Audiogram, которая, в свою очередь, является частью еще более масштабной платформы для создания ИИ-агентов — MWS AI Agents Platform.Часто нашим заказчикам нужно компактное коробочное решение, которое можно запустить на CPU при отсутствии GPU или для простой экономии ресурсов. В этом материале по следам своего же доклада на AiConf на примере нашего модуля автоматического распознавания речи (Automatic Speech Recognition или кратко — ASR) я расскажу:- как мы продуктивизировали модели на CPU, сохраняя качество (WER), сопоставимое с моделями, развернутыми в GPU-кластерах;- какие подходы для сравнения по производительности и качеству использовали, чтобы не попасть в ловушку усреднения метрик;- с какими неожиданностями мы столкнулись при смене версий Triton Inference Server и бэкендов (ONNX, OpenVINO). Поехали!