Обгоняет GigaAM и Whisper: «Т-Банк» опубликовал T-one, потоковую модель распознавания речи на русском языке

Wait 5 sec.

Компания «Т-Технологии», технологическое подразделение «Т-Банка» (ранее — «Тинькофф Банка»), выложила в открытый доступ модель распознавания речи T-one. Сгенерировано нейросетью Midjourney Разработчики заявили: Это потоковая ASR-модель при сравнительно небольшом размере в 70 млн параметров лидирует среди других открытых моделей по качеству распознавания на русском языке на шумных и сжатых записях из колл-центров — именно там, где бизнес теряет деньги из-за ошибок распознавания. Модель изначально спроектирована для работы в реальном времени с аудиопотоком произвольной длины. Она уже используется во внутренних продуктах «Т-Технологий», включая службу поддержки «Т-Банка», мобильного секретаря в «Т-Мобайле», инструментах защиты от спам-звонков и так далее. В «Т-Технологиях» подчеркнули: Общепринятых валидационных датасетов для телефонии на русском в открытом доступе с должным качеством разметки не существует, но по внутренним бенчмаркам* по качеству распознавания на русском в телефонии Т-one обгоняет большие открытые ASR-модели: GigaAM v2 на 242–243 млн параметров и Whisper Large-v3 на 1,5 млрд параметров. Кроме того, T-one достаточно компактна, чтобы запускать эту модель без необходимости закупать дорогостоящее оборудование. T-one распространяется по лицензии Apache 2.0, разрешающей свободное коммерческое использование и модификацию. Иллюстрация: «Т-Технологии»