Baidu presenta ERNIE 5.0, su modelo de IA multimodal que compite con GPT-5 y Gemini

Wait 5 sec.

Baidu ha dado un paso decisivo en su estrategia internacional con la presentación de ERNIE 5.0, su nuevo modelo fundacional de inteligencia artificial. Anunciado durante el evento Baidu World 2025, este sistema no solo busca destacar en China, sino posicionarse como un competidor directo frente a gigantes como OpenAI y Google en el terreno de la IA multimodal para aplicaciones empresariales.Este modelo representa una evolución sustancial respecto a versiones anteriores. Mientras que ERNIE-4.5-VL-28B-A3B-Thinking se mantiene como una opción open source bajo licencia Apache 2.0, ERNIE 5.0 es completamente propietario y está disponible sólo a través del portal ERNIE Bot o mediante la API en la nube Qianfan, dirigida a empresas.Capacidades multimodales nativasLa gran apuesta de ERNIE 5.0 es su enfoque nativamente multimodal. Esto significa que puede procesar y generar contenido combinando texto, imagen, audio y video de forma conjunta, sin recurrir a la fusión posterior de modalidades, como hacen otros modelos.Esta integración se traduce en una mayor comprensión contextual, fundamental para tareas como la automatización de documentos, el análisis financiero visual o la generación de contenido audiovisual adaptado. En palabras de Robin Li, CEO de Baidu, internalizar la IA convierte la inteligencia en una fuente de productividad en lugar de un coste adicional.Resultados sobresalientes en benchmarksEn sus presentaciones, Baidu compartió gráficos que posicionan a ERNIE 5.0 en igualdad o superioridad respecto a GPT-5-High y Gemini 2.5 Pro en pruebas clave de razonamiento multimodal, comprensión de documentos e interpretación de gráficos. Estos ámbitos son especialmente críticos en entornos empresariales donde los datos estructurados y no estructurados conviven a diario.En benchmarks como OCRBench, DocVQA y ChartQA, ERNIE 5.0 demostró una capacidad destacada para comprender y razonar sobre documentos visuales, lo que refuerza su aplicabilidad en sectores como la banca, los seguros o la administración pública.La generación de imágenes también es otro de sus puntos fuertes. En evaluaciones internas basadas en GenEval, el modelo alcanzó resultados comparables o superiores a los de Google Veo3 en calidad visual y alineación semántica. Esto sugiere una comprensión más precisa de las instrucciones dadas en lenguaje natural para la creación visual.En tareas de audio y lenguaje hablado, ERNIE 5.0 obtuvo puntuaciones competitivas en MM-AU y TUT2017, mostrando su habilidad para responder a preguntas formuladas mediante voz. Aunque no es su foco principal, refuerza su vocación de modelo versátil.Especialización textual con ERNIE 5.0 Preview 1022Junto con el modelo general, Baidu lanzó una versión específica llamada ERNIE 5.0 Preview 1022, centrada en el procesamiento intensivo de texto. Esta variante ha mostrado mejores desempeños en tareas de seguimiento de instrucciones, preguntas factuales y razonamiento matemático. Si bien Baidu no asegura superioridad absoluta en comprensión del lenguaje en inglés, sí destaca su rendimiento sobresaliente en idioma chino.Este enfoque dual permite a las empresas elegir entre un modelo equilibrado o uno optimizado según el tipo de tareas que deban automatizar.Estrategia de precios y comparativa internacionalEn cuanto a costos, ERNIE 5.0 se ubica en un rango medio-alto. Baidu lo posiciona como un producto premium dentro de su catálogo, con precios significativamente más altos que versiones anteriores como ERNIE 4.5 Turbo, pero más accesible que alternativas como Claude Opus 4.1 o GPT-5.1 de OpenAI.Esto se traduce en un enfoque comercial que diferencia claramente entre modelos de bajo costo para tareas masivas y modelos de alta capacidad para tareas críticas. Baidu parece apostar por un modelo de segmentación que puede resultar atractivo para empresas que necesitan eficiencia económica sin sacrificar potencia en tareas complejas.Ecosistema y expansión internacionalEl lanzamiento de ERNIE 5.0 estuvo acompañado por una ampliación de su ecosistema de herramientas de IA. Destacan:GenFlow 3.0, su agente general de IA con memoria mejorada y manejo multimodal, ya utilizado por más de 20 millones de personas.Famou, un agente autoevolutivo capaz de resolver problemas complejos, disponible bajo invitación.MeDo, la versión global de su constructor sin código Miaoda, accesible desde medo.dev.Oreate, un espacio de productividad que integra documentos, imágenes, videos y podcasts, con más de 1,2 millones de usuarios.Baidu también ha impulsado su plataforma de humanos digitales en mercados como Brasil, y su servicio de robotaxis Apollo Go ha superado los 17 millones de viajes en 22 ciudades, consolidándose como la red de taxis autónomos más grande del mundo.Un modelo abierto que no pasa desapercibidoDos días antes del lanzamiento de ERNIE 5.0, Baidu presentó una alternativa open source bajo licencia Apache 2.0: ERNIE-4.5-VL-28B-A3B-Thinking. Este modelo adopta una arquitectura de Mixture-of-Experts (MoE) que activa sólo 3 de sus 28 mil millones de parámetros por inferencia, lo que reduce los requerimientos de cómputo y permite ejecutarlo en una sola GPU de 80GB.Su capacidad para «pensar con imágenes» y comprender documentos, gráficos y videos, lo convierten en una opción muy atractiva para organizaciones medianas que necesitan un modelo potente sin complicaciones de licencia.Críticas, respuestas y transparenciaAunque los resultados presentados por Baidu son prometedores, no han estado exentos de críticas. Usuarios como el evaluador Lisan al Gaib compartieron en redes problemas con el uso excesivo de herramientas automáticas durante tareas específicas, como la generación de SVGs. La respuesta del equipo de soporte fue rápida, reconociendo el error y ofreciendo soluciones temporales, lo que denota un compromiso creciente con la comunidad desarrolladora.Este tipo de retroalimentación constante será clave para validar si las capacidades anunciadas por Baidu se sostienen fuera de entornos controlados.Una jugada estratégica con proyección globalCon ERNIE 5.0, Baidu no solo presenta un modelo potente, sino una estrategia integral que combina tecnología propietaria de alto rendimiento, alternativas abiertas para desarrolladores y una oferta diversificada de herramientas orientadas a la productividad y la automatización.A medida que las empresas demandan soluciones de IA multimodal, precios sostenibles y opciones flexibles de despliegue, la propuesta de Baidu gana relevancia. Queda por ver si sus afirmaciones resisten evaluaciones independientes, pero la dirección está clara: la competencia ya no es solo tecnológica, también es estratégica.La noticia Baidu presenta ERNIE 5.0, su modelo de IA multimodal que compite con GPT-5 y Gemini fue publicada originalmente en Wwwhatsnew.com por Natalia Polo.