GPT-5.5 supera a Claude Opus 4.7 en Terminal-Bench: la batalla del coding agéntico se decide en los benchmarks de tareas reales

Wait 5 sec.

OpenAI lanzó GPT-5.5 («Spud») la semana pasada con cifras que reordenan el liderazgo en programación agéntica. Aamir Khollam lo cubre en Interesting Engineering desde el ángulo competitivo: GPT-5.5 alcanza 82,7% en Terminal-Bench 2.0, el benchmark estándar para medir la habilidad de un agente de IA de operar autónomamente en una terminal Unix completando tareas reales de desarrollo. Ese resultado desplaza a Claude Opus 4.7 de Anthropic, que dominaba el segmento desde su lanzamiento en abril. Es la primera vez en 18 meses que OpenAI recupera el liderazgo declarado en coding agéntico.La cifra, aislada, es solo un benchmark. Lo que la hace relevante es que viene acompañada de mejoras consistentes en los otros tests que importan: 58,6% en SWE-Bench Pro (issues reales de GitHub en cuatro lenguajes), 84,9% en GDPval (44 ocupaciones de trabajo intelectual), 78,7% en OSWorld-Verified (operación de aplicaciones de ordenador) y 98% en Tau2-bench Telecom sin ajuste de prompts. La consistencia es el indicador más fiable: ganar uno o dos benchmarks puede ser optimización específica para esos tests; ganar todos sugiere capacidades estructurales mejoradas.Por qué Terminal-Bench es la métrica que importaTerminal-Bench 2.0 mide exactamente el escenario donde el coding agéntico vive: un agente recibe una tarea en lenguaje natural («añade autenticación OAuth a este proyecto», «depura este test que está fallando», «refactoriza este módulo siguiendo el patrón Repository»), accede a una terminal con el código y las herramientas necesarias, y tiene que resolverla autónomamente. La métrica de éxito es binaria: o la tarea queda resuelta correctamente o no. Para un equipo de desarrollo profesional, Terminal-Bench es lo más cercano a una prueba real de lo que un agente puede hacer en producción.GPT-5.5 al 82,7% significa que, dado un conjunto representativo de tareas de desarrollo, el agente las resuelve correctamente cuatro de cada cinco veces sin intervención humana. Es el primer modelo que cruza la barrera psicológica del 80% en este test. Para contexto, un desarrollador junior con 1-2 años de experiencia probablemente esté en torno al 70-75% en las mismas tareas. Un senior estaría más alto, pero el agente no se cansa, no necesita pausas y opera en paralelo en múltiples problemas.La presión sobre AnthropicAnthropic había construido buena parte de su narrativa empresarial sobre el liderazgo de Claude en coding. Claude Code es la herramienta agéntica más usada por desarrolladores profesionales, con un crecimiento de ARR que pasó de menos de 9.000 millones a 30.000 millones de dólares en 2025-2026, en gran parte gracias a la adopción enterprise de Claude Code y la familia Opus. El liderazgo en coding era el argumento principal para justificar precios premium frente a OpenAI y Google. Si GPT-5.5 mantiene los números en uso real (y no solo en benchmarks), el argumento se debilita. Las compañías que están en proceso de evaluación de plataformas agénticas para 2026-2027 van a ver tres modelos competitivos en lugar de uno claramente dominante.La respuesta esperable de Anthropic sigue dos líneas. Primera, Claude Opus 4.8 o equivalente en las próximas semanas, recuperando el liderazgo en benchmarks. Anthropic ha mantenido cadencias de actualización rápidas y tiene la talla técnica para responder. Segunda, refuerzo de las piezas que rodean al modelo: Claude Code 2.1, Cowork, Managed Agents con memoria, Remote Control. La tesis de Anthropic ha sido siempre que el modelo es solo una pieza de la solución; el ecosistema que la rodea (memoria, observabilidad, control granular, integraciones) es lo que convierte una capacidad técnica en producto empresarial. El movimiento reciente de Claude Managed Agents con memoria observable y exportable es un ejemplo claro de esta estrategia: profundizar en infraestructura agéntica más allá del modelo base.El factor coste-eficienciaUna pieza no destacada en muchos análisis competitivos: GPT-5.5 consume «significativamente menos tokens por tarea equivalente» en Codex, según OpenAI. Si la afirmación se sostiene en uso real, la ecuación económica para los clientes empresariales puede inclinarse a favor de OpenAI incluso a igualdad de capacidad. Una empresa que ejecuta 100.000 tareas agénticas al mes paga directamente por tokens consumidos; una mejora del 25-30% en eficiencia tokens-por-tarea es una reducción del 25-30% en factura. Anthropic ha optimizado en esta dirección con Opus 4.5 (que conseguía rendimiento equivalente con un 76% menos tokens que Sonnet 4.5), pero la batalla por la eficiencia es continua.La pregunta del mundo realLos benchmarks dicen una cosa. La adopción dice otra. Los desarrolladores que llevan 6-12 meses con Claude Code tienen flujos de trabajo, configuraciones, hábitos de prompt. Cambiar a GPT-5.5 vía Codex no es solo cuestión de calidad técnica; es coste de migración, recálculo de plantillas internas de prompt, validación contra los workflows críticos. Para muchos equipos, la decisión de plataforma se reevalúa cada 6 o 12 meses, no cada vez que sale un nuevo benchmark. La fricción real ya se ha visto antes: Anthropic tomó decisiones polémicas como cerrar el acceso a frameworks open source de terceros que abusaban de las suscripciones, y eso generó tensiones públicas con desarrolladores cercanos a OpenAI. Esa volatilidad de relación pesa en las decisiones de procurement empresarial.La ausencia de API en el lanzamiento de GPT-5.5 también es significativa. Mientras OpenAI prometa «muy pronto» sin fecha, los equipos enterprise que construyen sobre la API mantienen su despliegue actual. Cada semana de retraso en la API es una semana en la que Anthropic puede preparar la respuesta y mantener su posición.Mi valoraciónGPT-5.5 ha cambiado el ranking pero no la guerra. Los benchmarks son el primer round, no el resultado final. La pregunta crítica para los próximos seis meses es si OpenAI puede convertir el liderazgo técnico en liderazgo de adopción enterprise. Tiene tres barreras. Primera, la API: necesita estar disponible, estable y con SLAs claros antes de que el ciclo de procurement de las empresas empiece a tomar decisiones. Sin API, Plus y Pro son productos de individuo, no de empresa. Segunda, el ecosistema: Claude Code es una herramienta madura con integraciones profundas en VSCode, JetBrains, terminales y CI/CD. Codex está catching up, pero tiene meses de desventaja en hábitos de uso. Tercera, la confianza enterprise: Anthropic ha construido reputación de proveedor estable que no toma decisiones impredecibles; OpenAI ha tenido más drama público (cambios de gobernanza, controversias internas, despliegues fallidos). Los CIOs valoran la estabilidad de proveedor casi tanto como el rendimiento técnico. La parte más interesante a medio plazo es lo que esto significa para los precios. Si Anthropic ya no puede defender un premium con el argumento «somos los mejores en coding», tiene que pivotar a «somos los mejores en otro vector» (memoria, control, gobernanza, ecosistema completo) o aceptar bajada de precios. La compresión de márgenes en el segmento de IA agéntica viene como consecuencia natural de la competencia. Los ganadores van a ser los clientes empresariales: dos años de presión competitiva sostenida les van a permitir negociar precios significativamente mejores que los actuales. Los perdedores potenciales son los players que no logren ganar volumen suficiente para amortizar el coste de los modelos. La batalla de hoy entre OpenAI, Anthropic y Google es también la trinchera donde quedan eliminados todos los demás.Preguntas frecuentes¿Significa esto que debo migrar de Claude a ChatGPT? No automáticamente. Los benchmarks sintéticos no equivalen a rendimiento en tu workflow específico. Si tu equipo está productivo con Claude Code, los costes de migración (curva de aprendizaje, ajuste de prompts, integraciones existentes) probablemente superen el beneficio del salto en benchmarks.¿Cuándo estará disponible GPT-5.5 en API? OpenAI promete «muy pronto» sin dar fecha concreta. Hasta que esté disponible con SLAs claros, los equipos que construyen sobre API no pueden migrar.¿Va a reaccionar Anthropic con Claude Opus 4.8? No es oficial pero es muy probable. Anthropic ha mantenido una cadencia de actualizaciones rápida y la presión competitiva de GPT-5.5 hace casi inevitable una respuesta en las próximas semanas o meses.La noticia GPT-5.5 supera a Claude Opus 4.7 en Terminal-Bench: la batalla del coding agéntico se decide en los benchmarks de tareas reales fue publicada originalmente en Wwwhatsnew.com por Natalia Polo.