Meta lanza IA que reconoce voz en más de 1,600 idiomas

Wait 5 sec.

Meta acaba de lanzar algo enorme: un conjunto de modelos de inteligencia artificial capaces de reconocer voz y transcribir contenido en más de 1,600 idiomas. Y lo más impresionante es que 500 de esos idiomas jamás habían sido transcritos por una IA antes.​La compañía de Mark Zuckerberg presentó el lunes 10 de noviembre estos modelos llamados Omnilingual ASR (Automatic Speech Recognition, por sus siglas en inglés), desarrollados por su equipo de investigación FAIR (Fundamental AI Research).Adiós a las barreras del idiomaImagina esto: hablas un dialecto que apenas se usa en internet, una lengua que no tiene presencia en Google o Wikipedia. Hasta ahora, esas voces quedaban fuera del mundo digital. Pero Meta quiere cambiar eso.​El sistema Omnilingual ASR no viene solo. Meta también liberó un modelo de representación de voz multilingüe de código abierto llamado Omnilingual wav2vec 2.0, que puede escalar hasta siete mil millones de parámetros.¿Qué significa esto? Que los desarrolladores ahora tienen acceso a una herramienta poderosísima para crear aplicaciones de voz impulsadas por IA en una variedad enorme de idiomas.​Hindi, marathi… ¿y tulu?Para quienes vivimos en América Latina, esto puede sonar lejano, pero vale la pena mirar qué está pasando en India. Los modelos ASR de Meta soportan idiomas indios conocidos como hindi, marathi, malayalam, telugu, odia, punjabi, marwari y urdu.Pero aquí viene lo interesante: también entienden lenguas de “cola larga” que casi nadie habla fuera de ciertas regiones, como kui, chattisgarhi, maithili, bagheli, mahasu pahari, awadhi y rajbanshi.​¿Por qué importa? Porque demuestra que Meta está apostando por la diversidad lingüística real, no solo por los idiomas que generan más ganancias.Además, la compañía hizo público su Omnilingual ASR Corpus, un corpus de voz transcrita en 350 idiomas subrepresentados, disponible bajo licencia CC-BY para investigadores y desarrolladores.​La competencia se pone intensaEste anuncio llega en un momento clave. En India, por ejemplo, las startups locales están compitiendo ferozmente para desarrollar modelos de lenguaje en idiomas indios, apoyadas por iniciativas gubernamentales como Mission Bhashini.Sin embargo, enfrentan ahora una competencia brutal de gigantes como Meta y OpenAI, que ven a India como uno de sus mercados de crecimiento más importantes.​El gran problema para todos (startups y gigantes por igual) es la falta de datos de entrenamiento de calidad. Las lenguas minoritarias simplemente no están bien representadas en internet.Como explica Meta en su blog oficial: esto significa que las transcripciones de alta calidad a menudo no están disponibles para hablantes de idiomas menos representados, lo que profundiza la brecha digital.​Un modelo que aprende contigoAquí está la magia: Meta diseñó Omnilingual ASR para que sea impulsado por la comunidad. Los usuarios pueden agregar nuevos idiomas al sistema simplemente alimentando a los modelos con unas pocas muestras propias.​En la práctica – y esto es alucinante – un hablante de un idioma no soportado puede proporcionar solo un puñado de muestras de audio emparejadas con texto y obtener una calidad de transcripción utilizable.No se necesitan conjuntos de datos masivos, experiencia técnica extrema ni acceso a computadoras de alta gama.​La tecnología detrás del telónMeta bautizó su nuevo modelo de representación de voz multilingüe autosupervisado como LLM-ASR, liberado bajo la permisiva licencia Apache 2.0.La empresa escaló su modelo anterior wav2vec 2.0 hasta 7 mil millones de parámetros por primera vez, produciendo representaciones semánticas ricas y masivamente multilingües a partir de datos de voz sin procesar y sin transcribir.​Luego construyeron dos variantes de decodificador. El primero utiliza un objetivo tradicional de clasificación temporal conexionista (CTC, por sus siglas en inglés), mientras que el segundo aprovecha un decodificador transformador tradicional, comúnmente utilizado en LLMs.​En cuanto al rendimiento, el modelo LLM-ASR registró tasas de error de caracteres (CER) por debajo del 10% para el 78% de los más de 1,600 idiomas soportados. Un logro nada menor.​Datos con rostro humanoMeta enfatiza que su Corpus ASR Omnilingüe fue compilado en asociación con organizaciones locales que reclutaron y compensaron a hablantes nativos, a menudo en regiones remotas o poco documentadas.​La compañía trabajó con un grupo de lingüistas, investigadores y comunidades lingüísticas, colaborando con organizaciones como la iniciativa Common Voice de la Fundación Mozilla, que trabaja directamente con comunidades locales.Este corpus de datos se liberó bajo licencia CC-BY, permitiendo a investigadores y desarrolladores usarlo para crear aplicaciones de voz impulsadas por IA.​The post Meta lanza IA que reconoce voz en más de 1,600 idiomas first appeared on PasionMóvil.