Google DeepMind ha presentado oficialmente Gemini 2.5 Computer Use, un modelo especializado construido sobre la base del potente Gemini 2.5 Pro, que permite a los desarrolladores crear agentes capaces de interactuar con interfaces gráficas como si fueran humanos. Esta capacidad implica que la IA ya no está limitada a trabajar solo con APIs o estructuras predefinidas: ahora puede navegar por webs, completar formularios, hacer clic en botones o desplazarse por una página, imitando acciones humanas en entornos digitales.Esta evolución responde a una necesidad real: muchos procesos digitales todavía dependen de interfaces visuales que no están diseñadas para la interacción mediante API. Rellenar un formulario web, elegir una opción de un desplegable o gestionar una acción tras iniciar sesión requiere interacción visual y contextual. Gemini 2.5 Computer Use nace para cubrir precisamente ese hueco, actuando como un asistente que «ve» la pantalla y decide qué hacer, paso a paso.Cómo funciona el modelo de interacciónEl modelo se opera mediante el uso de una herramienta llamada computer_use, integrada en la API de Gemini. El ciclo de funcionamiento comienza con una tarea del usuario, una captura de pantalla del entorno digital actual y el historial reciente de acciones. Con esa información, el modelo analiza la situación y devuelve una acción recomendada, como hacer clic en un botón o escribir un texto.Una vez ejecutada la acción, el entorno se actualiza y se envía una nueva captura de pantalla al modelo, reiniciando el ciclo. Este bucle se repite hasta completar la tarea, producirse un error o recibir una instrucción de seguridad que interrumpa el proceso. El sistema también puede solicitar confirmación del usuario para acciones sensibles, como realizar compras.Rendimiento y pruebas comparativasLas pruebas internas y externas muestran que Gemini 2.5 Computer Use supera a sus principales competidores en benchmarks como Online-Mind2Web, WebVoyager y AndroidWorld, obteniendo puntuaciones de hasta 79.9% en algunos casos. Además de su precisión, también destaca por su baja latencia, lo que permite ejecutar acciones rápidamente, un aspecto fundamental en automatización de interfaces.Por ejemplo, en el benchmark Online-Mind2Web, obtuvo un 65.7%, frente al 61.0% de Claude Sonnet 4 y el 44.3% del agente de OpenAI. En WebVoyager, superó el 79%, situándose por encima de todos los rivales. Esta combinación de velocidad y exactitud es clave para tareas donde el tiempo y la fiabilidad marcan la diferencia, como pruebas automatizadas o asistentes virtuales.Aplicaciones reales y casos de usoDesde su versión preliminar, equipos de Google y empresas externas ya están aplicando este modelo en diferentes contextos. Un ejemplo destacado es el equipo de pagos de Google, que logró recuperar más del 60% de ejecuciones fallidas de pruebas automáticas gracias a la capacidad del modelo para interpretar el estado de la interfaz y corregir el flujo.Otros usuarios, como la plataforma de agentes Autotab, vieron mejoras del 18% en tareas complejas de extracción de datos. La startup Poke.com, que integra agentes proactivos en WhatsApp e iMessage, afirmó que el modelo era hasta un 50% más rápido que alternativas anteriores en tareas de interfaz.Medidas de seguridad integradasLa posibilidad de que una IA interactúe directamente con interfaces digitales plantea riesgos: desde usos malintencionados hasta errores inesperados. Por ello, Google ha diseñado una estrategia de seguridad basada en tres pilares:Un servicio de seguridad por paso que analiza cada acción propuesta antes de ejecutarla.Instrucciones del sistema para definir qué acciones deben bloquearse o requerir confirmación.Limitaciones integradas para evitar tareas peligrosas como eludir CAPTCHAs o controlar dispositivos médicos.Esto permite a los desarrolladores establecer barreras que eviten que el modelo actúe sin control. Por ejemplo, si el modelo detecta un CAPTCHA, no lo completa directamente, sino que solicita aprobación del usuario antes de continuar.Capacidades técnicas y requisitosEl modelo está optimizado para navegadores web y tiene buen rendimiento en aplicaciones móviles, aunque aún no está preparado para controlar sistemas operativos de escritorio. A nivel técnico, soporta acciones como click_at, type_text_at, scroll_document o drag_and_drop, y permite definir funciones personalizadas para ampliar su alcance.Los inputs están normalizados en coordenadas de pantalla (de 0 a 1000), lo que permite adaptar la ejecución a diferentes resoluciones. Se recomienda trabajar con resoluciones de 1440×900 para mejores resultados.Acceso y costesGemini 2.5 Computer Use está disponible en vista previa pública a través de la API de Gemini, accesible desde Google AI Studio y Vertex AI. A diferencia del modelo Gemini 2.5 Pro, no incluye una capa gratuita: su uso está restringido al nivel de pago desde el inicio.El modelo comparte la misma estructura de precios basada en tokens que Gemini 2.5 Pro: 1,25 dólares por millón de tokens de entrada y hasta 15 dólares por millón de tokens de salida, dependiendo del volumen. No incluye funciones como almacenamiento de contexto ni acceso directo a archivos, centrándose exclusivamente en la interacción con interfaces.Gemini 2.5 Computer Use representa un paso fundamental hacia agentes de IA verdaderamente autónomos. Su capacidad para interpretar visualmente una interfaz y actuar sobre ella abre la puerta a automatizaciones que antes requerían scripts complejos o intervención humana. Desde asistentes personales que agendan citas hasta herramientas de pruebas que identifican fallos en tiempo real, las posibilidades son tan amplias como los propios entornos digitales.La noticia Google lanza Gemini 2.5 Computer Use, su modelo para que las IA usen interfaces gráficas fue publicada originalmente en Wwwhatsnew.com por Natalia Polo.