Исследователи из AIRI, Иннополиса, МТУСИ, НИУ ВШЭ и МГУ представили открытый датасет и набор решений для задачи Speech-to-LaTeX — перевода надиктованных математических формул в структурированную запись. Речь идёт о системе, которая позволяет произнести формулу вслух и получить на выходе текст в формате LaTeX, который используется в научных статьях, учебных материалах и редакторах вроде Overleaf.Задача здесь сложнее обычного распознавания речи. Математическая речь содержит вложенные конструкции, неоднозначные формулировки и сильно зависит от контекста: одна и та же фраза может соответствовать нескольким разным записям. Авторы отмечают, что одной из главных проблем в этой области долгое время было отсутствие крупных открытых наборов данных именно с живыми аудиозаписями математической речи.Для решения этой проблемы исследователи собрали собственный датасет. В него вошли более 66 тысяч человеческих аудиозаписей и около 571 тысячи синтетических, а также примерно 12 тысяч уникальных математических предложений и 10,7 тысячи отдельных уравнений на русском и английском языках. По задумке авторов, сочетание реальной и синтетической речи должно помочь моделям лучше работать с разными голосами, акцентами и произношением.В работе сравнивались два подхода. Первый — ASR post-correction: сначала аудио превращается в обычный текст системой распознавания речи, а затем языковая модель исправляет результат и переводит его в корректный LaTeX. Второй — end-to-end Audio-LLM, где модель обучается напрямую принимать аудио и сразу выдавать формулу. По данным исследователей, лучшие результаты показал именно end-to-end подход, но он требует гораздо больше вычислительных ресурсов и более крупных моделей. Читать далее