Baidu, el gigante tecnológico chino conocido por su motor de búsqueda, acaba de presentar ERNIE-4.5-VL-28B-A3B-Thinking, un modelo de inteligencia artificial multimodal que busca competir directamente con desarrollos avanzados como GPT-5 de OpenAI y Gemini 2.5 Pro de Google. La propuesta sorprende no solo por sus capacidades, sino también por su eficiencia computacional, ya que activa solo 3.000 millones de parámetros durante la inferencia, pese a contar con un total de 28.000 millones.Este tipo de arquitectura, conocida como Mixture-of-Experts (MoE), permite que solo una fracción del modelo se active en cada tarea, reduciendo el consumo de recursos y haciéndolo viable para empresas que no cuentan con infraestructuras de computación avanzadas. Baidu asegura que su modelo puede funcionar con una sola GPU de 80 GB, lo que representa una alternativa accesible para organizaciones medianas.Capacidad de razonar con imágenes: una aproximación más humanaUno de los aspectos más innovadores de este modelo es su capacidad de «pensar con imágenes». Esta función permite que el sistema haga zoom de manera dinámica sobre partes específicas de una imagen, simulando el modo en que los humanos analizan visualmente un problema. Esta característica es especialmente útil en tareas que requieren entender tanto el contexto general como los detalles, como el análisis de diagramas técnicos o la inspección de defectos en líneas de producción.Este modelo también mejora lo que Baidu denomina «visual grounding», es decir, la capacidad de identificar y ubicar objetos específicos dentro de una imagen. Esto abre la puerta a usos en robótica, logística y control de calidad industrial, donde es vital que una IA pueda ejecutar instrucciones visuales con precisión.Entrenamiento con datos de alta calidad y refuerzo multimodalBaidu ha informado que el modelo fue sometido a una fase de entrenamiento intermedio intensivo, utilizando un corpus extenso y diverso de datos visuales y textuales. El objetivo fue mejorar la comprensión semántica entre imagen y texto, algo crítico en sistemas multimodales. Además, se aplicaron técnicas avanzadas de aprendizaje por refuerzo, incluyendo estrategias como GSPO e IcePop, que permiten estabilizar el entrenamiento de arquitecturas MoE.Estas técnicas ayudan al modelo a manejar tareas complejas que requieren razonamiento en varios pasos, como el análisis de gráficos, la interpretación de datos tabulados y la resolución de problemas en contextos STEM (ciencia, tecnología, ingeniería y matemáticas), incluso cuando los enunciados provienen de fotos.Compatibilidad y facilidad de integración en entornos empresarialesUna de las grandes apuestas de Baidu es ofrecer este modelo bajo una licencia Apache 2.0, lo que permite su uso comercial sin restricciones, a diferencia de otros modelos con licencias más limitantes. Esto podría fomentar su adopción por parte de empresas que buscan independencia tecnológica y flexibilidad legal.La integración en flujos de trabajo también ha sido cuidadosamente contemplada. Baidu ha lanzado ERNIEKit, un conjunto de herramientas que incluye compatibilidad con bibliotecas populares como Hugging Face Transformers, vLLM y su propia plataforma FastDeploy. Estas herramientas permiten implementar el modelo con pocas líneas de código y adaptarlo a distintos entornos de hardware, incluyendo opciones de cuantización para mejorar la eficiencia.Entendimiento de video y otras funciones destacadasEl modelo también incorpora habilidades para el análisis de video, incluyendo el reconocimiento de eventos y cambios temporales dentro de una secuencia. Esto permite identificar qué ocurre en cada momento del video y podría ser útil para vigilancia, edición automática o análisis de contenido multimedia.Otra función relevante es su capacidad de invocar herramientas externas. Por ejemplo, puede combinar sus capacidades internas con búsquedas de imágenes o funciones especializadas, como analizadores de razón o comandos específicos. Esto amplía su rango de aplicación más allá de lo que fue entrenado originalmente.Implicaciones para el mercado empresarial de IAEsta apuesta de Baidu llega en un momento clave. Muchas empresas han superado la fase de experimentación con chatbots y ahora buscan soluciones que automatizan procesos documentales, inspecciones visuales y flujos de trabajo complejos. Modelos como este tienen el potencial de transformar la forma en que las organizaciones procesan contratos, facturas o informes técnicos.También representa una oportunidad para empresas medianas que no disponen de presupuestos para infraestructuras de IA avanzadas. Poder ejecutar este sistema en una única GPU reduce los costos significativamente y permite escalar soluciones con menos barreras de entrada.Cómo se posiciona Baidu frente a los líderes del mercadoAunque las afirmaciones de Baidu respecto al rendimiento del modelo frente a Gemini 2.5 Pro y GPT-5-High aún no han sido validadas de forma independiente, la estrategia de código abierto y la eficiencia del sistema ya generan expectativa en la comunidad tecnológica. Algunos usuarios y desarrolladores han expresado entusiasmo, mientras que otros piden precaución al interpretar benchmarks sin pruebas externas.Analistas del sector destacan que el rendimiento en tareas específicas, como la comprensión de documentos, no necesariamente implica ventaja en todas las áreas. Por eso, cada organización deberá realizar pruebas con sus propios flujos de datos antes de adoptar el modelo de forma definitiva.Consideraciones técnicas y puntos a evaluarAunque el modelo esté optimizado para eficiencia, requiere una GPU de al menos 80 GB, lo cual sigue siendo un recurso costoso o inaccesible para muchas pequeñas empresas. Además, su ventana de contexto de 128.000 tokens, aunque amplia, podría resultar insuficiente en proyectos que requieren procesar documentos o videos extremadamente largos.El modelo también plantea dudas sobre su comportamiento ante datos fuera de distribución o entradas adversas, ya que la documentación no profundiza en los mecanismos de mitigación de sesgos o control de errores. Estos factores son fundamentales en entornos donde las fallas pueden tener consecuencias legales o de seguridad.Finalmente, la arquitectura MoE, aunque eficiente, introduce complejidad en la implementación. No todos los entornos de despliegue soportan el ruteo dinámico de entradas hacia distintos expertos, por lo que las organizaciones deberán evaluar cuidadosamente su infraestructura.Una comunidad de desarrolladores atenta y participativaLa comunidad de desarrolladores ha reaccionado con interés, solicitando versiones del modelo adaptadas a formatos móviles como GGUF o MNN para su uso en dispositivos con recursos limitados. También se ha especulado sobre la posible integración de tecnologías previas de Baidu, como PaddleOCR, en este nuevo sistema.Mientras tanto, la longitud del nombre del modelo ha generado comentarios humorísticos, aunque todos coinciden en que si el sistema realmente ofrece lo que promete, su complejidad nominal está más que justificada.El anuncio oficial de Baidu se complementará durante el evento Baidu World 2025, donde se esperan más detalles técnicos y casos de uso reales. Con esta movida, Baidu busca no solo consolidarse como actor relevante en el mercado doméstico, sino también competir a nivel global en el terreno de la IA corporativa.La noticia Baidu lanza un modelo multimodal de código abierto que desafía a los gigantes de la IA fue publicada originalmente en Wwwhatsnew.com por Natalia Polo.