Fable 5 batía a GPT-5.5 en todos los benchmarks relevantes — y eso ya es historia, porque el gobierno lo desconectó tres días después

Wait 5 sec.

Durante 72 horas, Fable 5 de Anthropic fue el modelo de IA más capaz disponible para el público en general. Superó a GPT-5.5 de OpenAI en las métricas de programación más exigentes por márgenes de entre 10 y 30 puntos. Encabezó el leaderboard de Chatbot Arena. Y entonces, el 12 de junio, el gobierno de EE.UU. lo apagó. Lo que queda es el análisis técnico de lo que fue y de lo que ahora domina el mercado sin competencia real. Lo publica hoy The Next Web.El resultado más llamativo de esa comparativa de 72 horas es la paradoja que deja: el modelo que demuestra mejor rendimiento es el que no puedes usar, y el que puedes usar —GPT-5.5— cuesta la mitad. Para quien tome decisiones sobre qué modelo integrar en sus productos o flujos de trabajo, ese es el contexto real.Los benchmarks que definieron la diferenciaLa comparativa más limpia está en programación, que es donde Fable 5 marcó mayor distancia. En SWE-Bench Pro —el estándar de la industria para evaluar la resolución autónoma de bugs en repositorios de código real— Fable 5 alcanzó un 80,3%, frente al 58,6% de GPT-5.5 y el 69,2% de Claude Opus 4.8. Son 21 puntos de ventaja sobre el modelo de OpenAI, una diferencia que en producción real significaría que Fable 5 resuelve de forma autónoma cerca de un 40% más de bugs que GPT-5.5 por unidad de trabajo.En el benchmark propio de Every.to para ingeniería senior —uno de los tests más exigentes en uso real— Fable 5 obtuvo 91 sobre 100, frente a 62 de GPT-5.5 y 63 de Opus 4.8. La diferencia con los otros dos modelos es comparable a la que separa a un ingeniero senior de uno junior en revisión de código.FrontierCode Diamond, el conjunto de tareas de producción más difícil, da la perspectiva completa: Fable 5 en 29,3% frente a 13,4% de GPT-5.5 y 14,4% de Gemini 3.1 Pro. No es que Fable 5 sea ligeramente mejor: está aproximadamente al doble del rendimiento de los demás en las tareas más complejas.En tareas de largo contexto, el cuadro es más matizado. Ambos modelos tienen ventana de 1 millón de tokens, pero en GraphWalks BFS al máximo de contexto, Opus 4.8 alcanza 68,1% frente al 45,4% de GPT-5.5. GPT-5.5 mantiene ventaja en ciertos benchmarks de razonamiento matemático y en escenarios de larguísimo contexto donde su arquitectura funciona mejor.El factor precio que cambia la ecuaciónFable 5 cuesta 10 dólares por millón de tokens de entrada y 50 dólares por millón de salida (equivalente a unos 9,40 y 47 euros respectivamente). GPT-5.5 está en 5 dólares de entrada y 25 de salida. Fable 5 era exactamente el doble de caro.Pero la comparativa en coste real por tarea no es tan desfavorable como la de precio bruto. En una tarea de migración de código en un repositorio de 50 millones de líneas, Stripe reportó que Fable 5 completó el trabajo en un solo día. El investigador Matthew Pines, trabajando en física de frontera, completó su análisis en 36 horas con Fable 5 usando un tercio de los tokens de razonamiento que GPT-5.5 necesitó para llegar al mismo punto en 4 días. Para tareas largas y complejas, el mayor precio por token puede compensarse con la mayor eficiencia por tarea.El escenario donde GPT-5.5 tiene ventaja económica real es en procesamiento masivo asíncrono: tiene una opción de procesamiento por lotes a 2,50 y 15 dólares que Fable 5 no ofrecía. Para empresas que procesan millones de documentos sin necesidad de respuesta en tiempo real, esa diferencia es estructural.Lo que queda ahora que Fable 5 está apagadoCon Fable 5 desconectado por la orden de exportación del 12 de junio, GPT-5.5 queda como el modelo de más alto rendimiento disponible en el mercado. Es una posición que no obtuvo por superar a Fable 5 en una comparativa directa, sino porque Fable 5 fue retirado del mercado por decisión gubernamental.Hay una distinción importante que Anthropic estableció entre sus modelos y que sigue siendo relevante: los benchmarks más llamativos de ciberseguridad —en particular ExploitBench, donde Mythos 5 alcanzaba el 78%— corresponden a Mythos 5, el modelo restringido y con guardarraíles eliminados que solo estaba disponible para socios de Project Glasswing. Fable 5, la versión pública, alcanzaba 0% en ese mismo benchmark porque sus clasificadores bloquean las consultas de ciberseguridad ofensiva. Que el gobierno americano considerara que incluso Fable 5 planteaba riesgo de jailbreak hacia capacidades ofensivas de Mythos 5 es el dato central del conflicto.Mi valoraciónLo que más me convence de los benchmarks de Fable 5 es la consistencia. No es que liderara en un test específico y fuera mediocre en otros: dominaba en programación, en visión, en razonamiento y en tareas de largo horizonte. Esa amplitud es la señal más fuerte de que el modelo Mythos representa un salto real de capacidad, no una optimización local para un benchmark concreto.Lo que más me preocupa es el precedente regulatorio. Si el gobierno americano puede desconectar un modelo comercial en 90 minutos invocando seguridad nacional, cualquier empresa que construya productos sobre modelos de frontera de Anthropic —o de cualquier otro laboratorio americano— tiene que incorporar ese riesgo en su planificación. El acceso a los mejores modelos ya no es solo una cuestión técnica o económica; es también una cuestión geopolítica.Lo más estructuralmente significativo es la brecha que abre este episodio. El mejor modelo disponible para el público durante 72 horas fue apagado. El segundo mejor sigue disponible. Para los equipos que construyeron workflows sobre Fable 5 en esos tres días, el migrar a GPT-5.5 no es solo un cambio de proveedor: es una reducción real de capacidad.Mi predicción: Fable 5 vuelve al mercado en semanas, pero con algún mecanismo de verificación de usuarios que no existía antes. El episodio acelera la conversación sobre licencias federales para modelos de frontera que ya estaba latente.Preguntas frecuentes¿GPT-5.5 es ahora el mejor modelo disponible?Sí, mientras Fable 5 permanezca desconectado. GPT-5.5 ofrece el mejor rendimiento disponible en la mayoría de benchmarks relevantes para uso empresarial y de desarrollo. En programación sigue siendo más débil que Fable 5 en los tests objetivos, pero es significativamente mejor que Claude Opus 4.8 en SWE-Bench Pro (58,6% vs 69,2%). Para uso de larga fecha o análisis complejo de contexto extenso, la diferencia entre los modelos disponibles se comprime.¿Por qué Fable 5 no tenía un precio por lotes como GPT-5.5?Anthropic no ofreció una opción de procesamiento asíncrono en el lanzamiento de Fable 5. La empresa indicó que el precio de 10/50 dólares era para acceso en tiempo real a través de la API, y que actualizaría su estructura de precios cuando la capacidad lo permitiera. Para junio de 2026, OpenAI sigue siendo la referencia para procesamiento masivo asíncrono a bajo coste por token.¿Puedo probar Fable 5 en Claude.ai cuando vuelva?Fable 5 estará disponible en Claude.ai para los planes de suscripción (Pro, Max, Team) cuando Anthropic restaure el acceso. Antes del bloqueo, la empresa indicó que el modelo estaría incluido en los planes de suscripción hasta el 22 de junio como periodo de prueba gratuito, y después requeriría créditos de uso adicionales. Las condiciones específicas del retorno no están confirmadas.La noticia Fable 5 batía a GPT-5.5 en todos los benchmarks relevantes — y eso ya es historia, porque el gobierno lo desconectó tres días después fue publicada originalmente en Wwwhatsnew.com por Natalia Polo.