Google ha presentado una mejora significativa en su modelo de inteligencia artificial Gemini 2.5, incorporando una capacidad conocida como segmentación conversacional de imágenes. Este avance permite que el sistema identifique partes específicas de una imagen mediante preguntas formuladas en lenguaje natural, abriendo nuevas posibilidades tanto para usuarios comunes como para industrias especializadas.¿Qué es la segmentación conversacional de imágenes?Hasta ahora, los modelos de visión artificial podían reconocer elementos dentro de una imagen, como «un coche» o «una persona». Pero con la nueva funcionalidad de Gemini 2.5, se puede ir más allá: no sólo identifica qué hay en la imagen, sino qué parte específica se está solicitando, en función de relaciones, atributos y condiciones descritas por el usuario.Es como si en lugar de decir «enciéndeme la luz», pudieras decir «enciende la luz más cercana a la ventana del fondo que está apagada». Esa es la diferencia entre el reconocimiento básico y la comprensión contextual que introduce esta tecnología.Comprensión visual avanzada basada en lenguaje naturalLa clave de este avance radica en que Gemini 2.5 no está limitado a clases predefinidas. Ahora puede responder a instrucciones como:“Señálame el coche que está más lejos.»«Encuentra a la persona que sostiene un paraguas.»«Marca el libro que está tercero desde la izquierda.»«Detecta la flor más marchita del ramo.»Esto requiere que el modelo entienda relaciones espaciales, atributos comparativos y conceptos abstractos dentro de una imagen. No se trata sólo de reconocer objetos, sino de comprender cómo se relacionan entre sí y cuáles son sus características distintivas.Aplicaciones en la industria y el mundo realUno de los ejemplos prácticos que Google destaca es su aplicación en seguridad laboral. Gemini 2.5 puede analizar una imagen de una fábrica y detectar cuáles empleados no están usando el equipo de protección adecuado. Esto representa una herramienta valiosa para la prevención de accidentes en tiempo real.El modelo también puede ser últil en campos como:Educación: para crear materiales interactivos que identifiquen elementos específicos en ilustraciones o diagramas.E-commerce: donde un cliente puede pedir «la camiseta roja de manga larga que está justo al lado del maniquí».Medicina: para localizar tejidos con ciertas características en una imagen de resonancia magnética.Agricultura: ayudando a identificar plantas con signos de plagas o deficiencias nutricionales.Más allá de las etiquetas tradicionalesEn vez de apoyarse en etiquetas estáticas o conjuntos de datos cerrados, Gemini permite que la interacción sea dinámica y abierta a cualquier descripción relevante para el contexto. Esto lo hace ideal para resolver necesidades específicas, incluso aquellas que no fueron contempladas durante el entrenamiento del modelo.Es como tener un asistente visual que no solo sabe lo que ve, sino que entiende lo que se le pide según las necesidades del momento.Pruebas y acceso para desarrolladoresPara quienes quieran experimentar con esta tecnología, Google ha puesto a disposición una demo llamada Spatial Understanding dentro de Google AI Studio. Además, los desarrolladores pueden integrar estas capacidades en sus propias aplicaciones mediante la API de Gemini.Esta apertura permite que startups, empresas y centros de investigación comiencen a explorar nuevas formas de interacción visual adaptadas a sus objetivos.Un paso hacia una inteligencia más intuitivaEste avance no sólo mejora la capacidad de los modelos para ver, sino también para entender con precisión lo que se les pide que vean. La diferencia está en la forma en que se integran el lenguaje y la visión: no se trata de módulos separados, sino de una comprensión conjunta que simula la forma en que los humanos interpretamos el entorno.La segmentación conversacional en Gemini 2.5 se posiciona como una herramienta versátil, con potencial para transformar la forma en que interactuamos con la información visual. Es un avance que acerca la inteligencia artificial a una comprensión más natural del mundo, donde no solo se mira, sino que se comprende.La noticia Google da un salto en la comprensión visual con Gemini 2.5: así funciona la segmentación conversacional de imágenes fue publicada originalmente en Wwwhatsnew.com por Natalia Polo.