La IA en Europa quiere hablar en todos los idiomas: el desafío de superar el dominio del inglés

Wait 5 sec.

Europa es un mosaico lingüístico único: 24 lenguas oficiales en la Unión Europea y muchas más entre dialectos, lenguas minoritarias y las habladas por comunidades migrantes. Sin embargo, en el mundo de la inteligencia artificial (IA), esta riqueza idiomática está lejos de reflejarse. El inglés domina la mayor parte del contenido digital, alimentando los modelos de lenguaje (LLM) que hacen funcionar las herramientas de IA que usamos a diario.Esto crea una situación paradójica: vivimos en una Europa diversa que se comunica, cada vez más, a través de modelos que solo piensan en inglés.Por qué la IA habla tanto inglésLa razón de este dominio es histórica. Las primeras bases de la informática moderna se asentaron en Estados Unidos. Las grandes tecnológicas, los estándares y los sistemas operativos nacieron en inglés. El resultado: más del 50% de las webs están en inglés, aunque sólo lo habla nativamente el 6% de la población mundial.Cuando los modelos de lenguaje se entrenan con datos obtenidos de Internet, esa desproporción se arrastra. Por eso, muchas veces una IA responde en inglés aunque se le hable en otro idioma. O, peor, ofrece traducciones imperfectas, confusas o artificiales.Modelos abiertos, lenguas cerradasAunque muchos modelos se califican como «abiertos», el significado de ese término es ambiguo. En el mundo del software, lo «open source» tiene reglas claras. En IA, no tanto. A veces «abierto» significa que el modelo puede usarse, pero no modificarse; otras, que el código es público pero los datos no.También hay que distinguir entre modelos multilingües (que entienden varios idiomas) y los monolingües (centrados en uno solo). En general, las lenguas con menos datos disponibles (llamadas lenguas de bajo recurso) están en desventaja.Proyectos europeos que dan voz a todos los idiomasPese a este contexto, Europa está reaccionando. Una serie de iniciativas, tanto públicas como privadas, buscan reequilibrar la balanza idiomática de la IA.Hugging Face y el modelo BLOOMEsta plataforma francesa-estadounidense es hoy referencia en el ecosistema de modelos abiertos. Ha impulsado proyectos como BLOOM, un modelo multilingüe que apoya más de 40 lenguas. También colabora con Meta en la creación de herramientas de traducción masiva. Hugging Face permite acceder a miles de modelos y conjuntos de datos, muchos etiquetados por idioma. Eso sí, las etiquetas no siempre son precisas, lo que dificulta saber qué idiomas entiende bien un modelo.Mistral AI y el caso del «boueef»Esta empresa francesa ganó notoriedad por sus modelos potentes y accesibles. Aunque en 2024 uno de sus modelos respondió en inglés a una pregunta hecha en francés, recientemente han anunciado Magistral, un modelo con soporte explícito para varios idiomas europeos. Aún así, los errores lingüísticos menores, como escribir «boueef» en lugar de «boeuf», muestran que aún hay margen de mejora.EuroLLM: traducción para todosUnbabel, junto con universidades europeas, impulsa EuroLLM, un modelo entrenado para funcionar en todos los idiomas oficiales de la UE, y también en lenguas relevantes como hindi, turco o chino. Su gran reto ha sido encontrar datos suficientes para entrenar lenguas minoritarias. Han usado fuentes como Europarl, que recopila discursos traducidos del Parlamento Europeo, para conseguirlo.Ya han lanzado modelos con 1.7, 9 y 22 mil millones de parámetros. Estos modelos pueden chatear como ChatGPT, combinando idiomas de forma natural.OpenEuroLLM y el poder nórdicoEste consorcio de universidades y empresas, como Silo AI, quiere crear el mayor modelo abierto de IA en Europa. Inspirado en los modelos «Lumi» centrados en lenguas nórdicas, utiliza una técnica llamada entrenamiento cruzado: los parámetros se comparten entre idiomas más y menos hablados para mejorar el rendimiento general. Su objetivo no es solo proteger la diversidad lingüística, sino también ofrecer soluciones adaptadas a mercados pequeños.OpenLLM FranceEn el plano nacional, Francia también cuenta con OpenLLM France, que trabaja para mejorar el soporte del francés en modelos de IA. Usan datos reales de conversaciones, obras teatrales o debates políticos, y mantienen una clasificación de modelos en francés en Hugging Face.IA en varios idiomas: ¿qué eligen los usuarios?Aunque los esfuerzos técnicos son notables, queda la pregunta clave: ¿la gente prefiere usar la IA en su idioma o en inglés? Una encuesta informal reveló que la mitad la usa solo en inglés, y la otra mitad mezcla idiomas. En contextos laborales, el inglés domina. Pero para tareas personales, muchos prefieren expresarse en su lengua materna.Esto muestra un cambio de percepción: la gente empieza a confiar en que las IAs entienden más que solo inglés. Herramientas como LLaMA o ChatGPT han abierto la puerta a una IA más diversa lingüísticamente, y eso se nota en el uso.Un futuro más plural para la inteligencia artificialEuropa no quiere ser sólo un consumidor de tecnología anglosajona, sino un actor activo con modelos propios, abiertos y respetuosos con su diversidad. Aún hay retos técnicos: traducir no es entender, y una mala traducción puede ser peor que ninguna. Pero los pasos se están dando, y el camino se construye colaborativamente entre investigadores, instituciones y usuarios.Tal vez no podamos enseñarle a la IA todos nuestros idiomas de una vez, pero paso a paso, modelo a modelo, podemos lograr que cada lengua tenga su lugar en el futuro digital.La noticia La IA en Europa quiere hablar en todos los idiomas: el desafío de superar el dominio del inglés fue publicada originalmente en Wwwhatsnew.com por Natalia Polo.