Phi-4-reasoning-vision-15B: el modelo multimodal compacto de Microsoft que “piensa” solo cuando conviene

Wait 5 sec.

Microsoft Research ha presentado Phi-4-reasoning-vision-15B, un modelo multimodal de 15.000 millones de parámetros con pesos abiertos, pensado para combinar visión y lenguaje sin disparar costes de cómputo ni latencia. La idea es sencilla de entender con un ejemplo cotidiano: no necesitas sacar una calculadora científica para apuntar un número de teléfono, pero sí para resolver una integral. Este modelo intenta hacer justo eso: responder “directo” cuando la tarea es perceptiva (leer, describir, localizar) y activar un razonamiento más largo cuando el problema lo pide, como en matemáticas y ciencias.Según Microsoft Research, está disponible en Microsoft Foundry, Hugging Face y GitHub, con un enfoque claro: ofrecer una opción compacta que sea competitiva en tareas clásicas de visión-lenguaje, y especialmente sólida cuando hay que razonar con información visual o entender interfaces.Eficiencia como objetivo: menos tokens, menos esperaEn los modelos de visión-lenguaje se ha vuelto común ver dos “inflaciones” a la vez: más parámetros y, sobre todo, más tokens procesados y generados. En la práctica eso se traduce en respuestas más lentas y más caras, justo lo contrario de lo que quieres en un asistente interactivo o en un sistema que corre en hardware contenido.Microsoft Research sitúa a Phi-4-reasoning-vision-15B como un modelo que empuja la “frontera de Pareto” entre precisión y coste, comparándolo con alternativas abiertas populares. Su tesis es que la eficiencia no se logra por arte de magia, sino por decisiones de arquitectura y por un trabajo minucioso de datos. En números, hablan de haber entrenado con unos 200.000 millones de tokens multimodales, apoyándose en una base de la familia Phi-4 (incluida una variante de razonamiento entrenada con un volumen mucho menor), frente a entrenamientos que superan el billón de tokens en otros VLM abiertos como Qwen VL, Kimi-VL o Gemma. La promesa es clara: rendimiento cercano a modelos más lentos que consumen muchas más fichas de cómputo, con respuestas más contenidas en longitud.Arquitectura: por qué eligieron mid-fusion y no “todo mezclado desde el inicio”Una decisión clave en modelos visión-lenguaje es cómo se combinan imagen y texto. Microsoft Research describe dos rutas típicas. La “fusión temprana” mete parches de imagen y tokens de texto en un mismo transformador desde el principio, lo que puede dar representaciones conjuntas muy ricas, aunque con un coste de entrenamiento y memoria considerable. La “fusión intermedia” usa un encoder de visión que convierte la imagen en tokens visuales y los proyecta al espacio del modelo de lenguaje ya entrenado.Aquí optan por mid-fusion: un punto de equilibrio que permite aprovechar un backbone lingüístico fuerte (en su caso, Phi-4-Reasoning) y sumar visión con un coste más razonable. Si lo llevamos a una metáfora doméstica, es como usar un buen traductor (el encoder visual) para convertir “lo que ves” en un idioma que el modelo ya domina, en vez de enseñarle desde cero a leer fotografías como si fueran texto.El “cuello de botella” real: ver bien antes de razonar bienUn matiz interesante que subraya Microsoft Research: muchos fallos en tareas de razonamiento visual no nacen de una falta de lógica, sino de una percepción deficiente. Un pantallazo con iconos pequeños, un gráfico cargado de texto o una factura con tipografías complicadas pueden hacer tropezar al sistema antes de que empiece a “pensar”.Por eso dedicaron esfuerzo a la parte de visión y al tratamiento de resoluciones altas. Construyeron experimentos con un modelo proxy más pequeño y compararon técnicas como recortes múltiples, estrategias tipo S2 (reescala y tesela), combinaciones de recorte con S2 y, especialmente, encoders con resolución dinámica. La conclusión que reportan es que los enfoques de resolución dinámica rinden mejor en datos de alta resolución, y que aumentar el máximo de tokens visuales (en su prueba, hasta un rango que se aproxima a HD) mejora de forma notable resultados en pruebas exigentes de “pantalla” como ScreenSpot-Pro.El encoder elegido es SigLIP-2 en su variante Naflex, precisamente por esa flexibilidad para ajustar resolución y parches. Traducido a experiencia de usuario: es como cambiar de una lupa fija a una lupa que ajusta el zoom según el tamaño de lo importante en la imagen.Datos: menos cantidad, más curación y más “cirugía” de calidadEl otro gran bloque del relato es la curación de datos. Microsoft Research insiste en que el dataset final se construyó a partir de tres fuentes: conjuntos abiertos muy filtrados y mejorados, datos internos de alta calidad y adquisiciones dirigidas. Lo más llamativo está en el proceso de “arreglo” de datos abiertos: revisiones manuales rápidas por dataset para clasificar calidad, regeneración de respuestas cuando había errores (mencionan el uso de GPT-4o y o4-mini como herramientas de regeneración), eliminación de conjuntos irrecuperables y reutilización de imágenes buenas como “semillas” para generar nuevas muestras.También cuentan que arreglaron errores de formato y lógica en datasets populares y que exprimir un dataset no consiste solo en entrenarlo tal cual, sino en reestructurarlo para que haga “doble trabajo”: por ejemplo, sumar descripciones detalladas de imágenes a pares pregunta-respuesta, variar estilos de prompt para robustez, o crear registros “qué ha cambiado” en secuencias de imágenes para mejorar razonamiento multiimagen. En paralelo, mencionan datos internos específicos como latex-OCR generado a partir de ecuaciones renderizadas de documentos de arXiv, útil cuando el texto visual es matemático y no solo tipográfico.Matemáticas frente a “computer-use”: cuando más de una cosa buena ayuda a la otraUno podría pensar que entrenar para matemáticas visuales y para entender interfaces se estorban, como si practicar piano te quitara tiempo para practicar guitarra. Sus experimentos sugieren algo más curioso: al variar proporciones de datos entre matemáticas/ciencias y computer-using agents (CUA), observaron que añadir más datos de uso de ordenador no dañaba matemáticas, y que triplicar el bloque de matemáticas podía mejorar tanto métricas de razonamiento como resultados de tareas de interfaz.Esta idea tiene sentido si imaginamos que el modelo aprende dos hábitos compatibles: precisión al leer detalles (útil en botones y en fórmulas) y disciplina para encadenar pasos (útil en cálculos y en navegación). No es garantía de que siempre ocurra, pero es una pista relevante para quienes diseñan mezclas de datos sin irse al extremo de entrenar modelos hiper-especializados.Mezclar “razonar” y “no razonar”: un modo automático con control manualEn texto puro, los rastros de razonamiento suelen subir rendimiento, a costa de latencia y verbosidad. En visión, Microsoft Research señala un matiz: en tareas como OCR o captioning, razonar puede ser innecesario e incluso contraproducente; en problemas científicos y matemáticos, el razonamiento multi-paso marca la diferencia.Su propuesta es entrenar un modelo con base razonadora, pero con una mezcla donde solo una parte lleva trazas de razonamiento. Hablan de un reparto aproximado de 20% de datos con razonamiento y 80% de respuestas directas, señalizadas con etiquetas especiales durante el entrenamiento para que el modelo aprenda cuándo conviene una cosa u otra. La consecuencia práctica es doble: el comportamiento por defecto intenta ahorrar tokens cuando no aportan valor, y el usuario puede forzar un estilo u otro con prompts explícitos si necesita más detalle o más concisión.Evaluación y casos de uso: de recibos a pantallasPara medir rendimiento, Microsoft Research dice haber usado marcos abiertos como Eureka ML Insights y VLMEvalKit, con una metodología propia (temperatura 0, decodificación greedy y un máximo de tokens de salida). Reportan resultados competitivos en benchmarks de gráficos y documentos como ChartQA y OCRBench, y destacan su fortaleza en escenarios de pantalla y grounding como ScreenSpot, junto con buen nivel en pruebas de razonamiento visual matemático como MathVista.En la parte de aplicaciones, el abanico es fácil de imaginar: descripción de imágenes, preguntas sobre documentos, lectura de recibos y reparto de gastos devolviendo resultados estructurados, interpretación de símbolos de lavado o análisis de secuencias de imágenes para detectar cambios. En interfaz, lo atractivo es la combinación de percepción en alta resolución con localización fina de elementos, algo que se siente como darle al modelo un puntero y un mapa del terreno para que un agente pueda decidir “qué botón es este” antes de hacer clic.Apertura, seguridad y lo que queda por resolverMicrosoft Research enmarca el lanzamiento como open-weight, con pesos, código de fine-tuning y registros de evaluación, bajo licencia permisiva. En seguridad, indican que siguieron una mezcla de datasets públicos y ejemplos internos, alineados con los principios de Responsible AI de Microsoft.Queda un debate interesante que el propio texto admite: encontrar el punto ideal de mezcla entre respuestas directas y razonamiento no es un número mágico que sirva para todos los dominios. Ese “interruptor” es aprendido por distribución de datos y puede ser difuso en los bordes. Aun así, la apuesta es clara: modelos compactos con razonamiento selectivo, útiles tanto para tareas cotidianas como para trabajo serio con ciencia, matemáticas y pantallas.La noticia Phi-4-reasoning-vision-15B: el modelo multimodal compacto de Microsoft que “piensa” solo cuando conviene fue publicada originalmente en Wwwhatsnew.com por Natalia Polo.