Meta ha dado un paso significativo en su estrategia de inteligencia artificial con el lanzamiento de Omnilingual ASR, un sistema de reconocimiento automático del habla que no solo soporta más de 1.600 idiomas de forma nativa, sino que puede adaptarse a miles más sin necesidad de reentrenamiento. Esta tecnología representa una evolución clave respecto a modelos anteriores como Whisper de OpenAI, que apenas cubre 99 idiomas.La diferencia fundamental está en la arquitectura del sistema: Omnilingual ASR permite el uso del llamado aprendizaje sin disparo (zero-shot) con aprendizaje contextual, una técnica que permite al modelo transcribir nuevos idiomas con solo unos pocos ejemplos de audio y texto, sin pasar por un proceso completo de entrenamiento. Esto expande el potencial de cobertura hasta más de 5.400 idiomas, abarcando prácticamente todas las lenguas habladas con una escritura documentada.Diseñado para ser accesible y adaptableOmnilingual ASR no es solo una familia de modelos, es una infraestructura abierta y flexible. Su distribución bajo licencia Apache 2.0 significa que puede utilizarse libremente, incluso en aplicaciones comerciales, sin las restricciones que tenían otros modelos de Meta como Llama, cuya licencia limitaba el uso en empresas grandes.Todo el conjunto está disponible desde el 10 de noviembre en el sitio de Meta, en GitHub y en Hugging Face, junto con un artículo técnico detallado. Incluye modelos de transcripción, un modelo de representación de audio de 7 mil millones de parámetros y un corpus de voz masivo con más de 350 idiomas previamente poco representados.Arquitectura y tecnología del sistemaEl sistema está diseñado bajo un enfoque encoder-decoder: primero convierte el audio en una representación intermedia independiente del idioma, y luego lo traduce en texto escrito. Esta arquitectura permite un rendimiento más robusto y preciso.Entre los modelos disponibles se encuentran:Modelos wav2vec 2.0, que aprenden representaciones del habla sin supervisión (entre 300 millones y 7 mil millones de parámetros).Modelos CTC-ASR, eficientes para tareas de transcripción supervisada.LLM-ASR, que combinan un codificador de voz con un decodificador de texto basado en Transformer.LLM-ZeroShot, capaces de adaptarse a nuevos idiomas en tiempo real usando ejemplos mínimos.Esta variedad permite una aplicación escalable, desde dispositivos de bajo consumo hasta infraestructuras empresariales.Impacto en las lenguas minorizadasEl alcance de Omnilingual ASR cambia el paradigma del reconocimiento de voz. Mientras modelos anteriores estaban diseñados para idiomas con grandes volúmenes de datos, este sistema ha sido entrenado con más de 4,3 millones de horas de audio en 1.600 lenguas, incluyendo más de 500 que nunca habían sido cubiertas por modelos ASR.Esto es especialmente relevante para comunidades con idiomas excluidos de las tecnologías digitales. La posibilidad de usar pocos ejemplos para extender el modelo permite a cada grupo adaptar la herramienta a sus propias necesidades sin depender de grandes centros de investigación.Un nuevo rumbo para MetaEste lanzamiento llega tras un año convulso para Meta en el ámbito de la IA. Tras el pobre desempeño de Llama 4, que fue superado por modelos chinos en adopción empresarial, la compañía cambió de estrategia. El nombramiento de Alexandr Wang como Chief AI Officer y una agresiva campaña de contratación sentaron las bases para recuperar credibilidad.Omnilingual ASR representa una forma de volver a un terreno que Meta domina desde hace tiempo: la IA multilingüe, con un enfoque centrado en la comunidad, la transparencia y la extensibilidad. En lugar de cerrar el acceso, esta vez Meta abrió el código y los datos, con procedimientos de entrenamiento reproducibles y licencias claras.Datos creados con y para las comunidadesPara construir un sistema tan diverso, Meta trabajó con universidades y organizaciones comunitarias en regiones como África y Asia. De ahí nació el Omnilingual ASR Corpus, con 3.350 horas de grabaciones en 348 lenguas de escasos recursos.Participaron instituciones como Maseno University (Kenia), la Universidad de Pretoria y Data Science Nigeria, junto con iniciativas como Common Voice de Mozilla y Lanfrica. Las grabaciones se centraron en discursos espontáneos y cotidianos, como una conversación sobre la amistad o los retos diarios, en lugar de textos artificiales.Este enfoque culturalmente contextualizado mejora la calidad del reconocimiento en escenarios reales, y refuerza el compromiso ético de trabajar directamente con hablantes nativos.Rendimiento y requisitos técnicosEl modelo más avanzado, omniASR_LLM_7B, requiere unos 17 GB de memoria GPU para funcionar, lo que lo hace ideal para servidores potentes. Sin embargo, existen versiones más ligeras que permiten transcripción en tiempo real incluso en dispositivos modestos.En cuanto a rendimiento, los datos son sólidos:Tasa de error de caracteres (CER) inferior al 10% en el 78% de los idiomas admitidosCER