Anthropic lanza Claude Opus 4.7: el modelo que convierte tareas de horas en trabajo autónomo, con 3x más resolución visual y las primeras salvaguardas anti-ciberataque heredadas de Mythos

Wait 5 sec.

Anthropic ha publicado hoy Claude Opus 4.7, disponible ya en la API (claude-opus-4-7), en claude.ai y en los tres proveedores cloud (Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry). El pricing se mantiene en 5 dólares por millón de tokens de entrada y 25 dólares por millón de salida, el mismo de Opus 4.6. La mejora principal es en ingeniería de software avanzada, con ganancias particularmente pronunciadas en las tareas más difíciles: los testers de acceso anticipado reportan poder delegar trabajo de codificación complejo que antes requería supervisión directa. Opus 4.7 trabaja durante sesiones largas con rigor y consistencia, sigue instrucciones con precisión literal (lo que puede sorprender a quien use prompts escritos para modelos anteriores, que interpretaban con más libertad), y verifica sus propios outputs antes de reportar. Además, la resolución visual sube a 2.576 píxeles en el borde largo (~3,75 megapíxeles), más del triple que modelos Claude anteriores, lo que abre un abanico de usos que dependen del detalle fino: agentes leyendo capturas densas, extracciones de datos de diagramas complejos y trabajo que necesita referencias pixel-perfect.El contexto del lanzamiento es crucial para entender lo que Opus 4.7 representa dentro de la estrategia de Anthropic. La semana pasada, la compañía anunció Project Glasswing con Claude Mythos Preview, el modelo que encontró miles de vulnerabilidades zero-day en sistemas operativos y navegadores en semanas, incluyendo un bug de 27 años en OpenBSD. Anthropic decidió no lanzar Mythos al público por motivos de seguridad. Opus 4.7 es el primer modelo en el que la compañía aplica las lecciones de esa decisión: durante su entrenamiento, experimentaron con técnicas para reducir diferencialmente las capacidades de ciberseguridad ofensiva, y lo lanzan con salvaguardas que detectan y bloquean automáticamente solicitudes que indiquen usos prohibidos o de alto riesgo. Lo que aprendan del despliegue real de esas salvaguardas les ayudará a trabajar hacia su objetivo declarado de lanzar eventualmente modelos de clase Mythos al público general. Para profesionales de seguridad que necesiten usar Opus 4.7 para investigación legítima de vulnerabilidades, pentesting o red-teaming, Anthropic abre un nuevo Cyber Verification Program con solicitud en claude.com/form/cyber-use-case.Los benchmarks son sólidos. En SWE-bench Verified, Opus 4.7 alcanza 72,6% frente al 66,5% de Opus 4.6. En Terminal-Bench 2.0 (la métrica más representativa de trabajo real en terminal) sube de 37,4% a 47,6%. En CursorBench, el salto es de 58% a 70%. XBOW, la empresa de pentesting autónomo, reporta un dato particularmente llamativo: en su benchmark de agudeza visual, Opus 4.7 puntúa 98,5% frente al 54,5% de Opus 4.6, lo que indica que la mejora en visión no es incremental sino transformadora. Rakuten reporta que Opus 4.7 resuelve 3 veces más tareas de producción que Opus 4.6 en su benchmark propio. Harvey (la plataforma de IA legal) obtiene 90,9% en BigLaw Bench. Los testimoniales de acceso anticipado cubren Replit, Cursor, Vercel, Warp, Bolt, Notion, Devin, Ramp, Databricks, CodeRabbit, Hex y otras. El consenso es consistente: «un salto real en capacidad autónoma sostenida».Las novedades complementarias son igualmente relevantes para desarrolladores. Un nuevo nivel de esfuerzo xhigh entre high y max da control más fino sobre el balance entre razonamiento profundo y latencia. En Claude Code (la herramienta de terminal), el esfuerzo por defecto sube a xhigh para todos los planes, y se estrena el comando /ultrareview, que lanza una sesión de revisión dedicada que lee los cambios y señala bugs y problemas de diseño que un revisor humano cuidadoso detectaría. Los usuarios Pro y Max de Claude Code reciben tres ultrareviews gratuitos para probarlo. También se extiende el «auto mode» a usuarios Max: un modo de permisos donde Claude toma decisiones en nombre del usuario sin pedir confirmación constante, lo que permite ejecutar tareas largas con menos interrupciones. En la API, se lanzan en beta pública los «task budgets», que permiten a los desarrolladores guiar el gasto de tokens de Claude para que priorice trabajo a lo largo de ejecuciones largas.Hay dos cambios de migración que conviene tener en cuenta. Primero: Opus 4.7 usa un tokenizador actualizado que mejora el procesamiento de texto pero que, como contrapartida, puede mapear el mismo input a más tokens (entre 1,0x y 1,35x dependiendo del tipo de contenido). Segundo: el modelo piensa más a niveles de esfuerzo altos, especialmente en turnos avanzados de sesiones agentivas, lo que produce más tokens de salida. Anthropic dice que el efecto neto es favorable (el uso de tokens por nivel de esfuerzo mejora en su evaluación interna de coding), pero recomienda medir en tráfico real antes de asumir que el coste se mantiene.En seguridad y alineamiento, Opus 4.7 muestra un perfil similar a Opus 4.6 en la mayoría de métricas, con mejoras en honestidad y resistencia a prompt injection, pero modestamente peor en tendencia a dar consejos excesivamente detallados sobre sustancias controladas. La evaluación de alineamiento interna concluyó que el modelo es «en gran medida bien alineado y confiable, aunque no completamente ideal en su comportamiento». Mythos Preview sigue siendo el modelo mejor alineado según las evaluaciones de Anthropic, lo que refuerza la paradoja: el modelo más poderoso es también el que se comporta mejor, pero es demasiado peligroso para lanzar públicamente. Anthropic publicó un system card completo con los detalles, y Claude Code Security sigue siendo la herramienta defensiva clave de la compañía para detección de vulnerabilidades en código.Mi valoración: Opus 4.7 es el tipo de actualización que importa más por lo que habilita que por los números de benchmark. El salto en visión (de 54% a 98% en agudeza visual) cambia fundamentalmente lo que un agente puede hacer con capturas de pantalla, documentos escaneados y diagramas técnicos. El salto en autonomía sostenida (tareas que duran horas sin degradación) es lo que convierte a Claude de un «copiloto que necesitas mirar» a un «compañero de equipo al que delegas y revisas después». Y las salvaguardas de ciberseguridad heredadas de Mythos marcan un precedente interesante: Anthropic está aprendiendo a regular capacidades a nivel de modelo, no solo a nivel de política. Si logran iterar ese enfoque de forma fiable, el camino hacia un lanzamiento público de modelos de clase Mythos se acorta. Para los que llevamos tiempo usando Opus 4.6 en producción, las implicaciones en ciberseguridad son reales y el marco que se viene dibujando está claro: los modelos van a ser cada vez más capaces y la industria tiene que decidir si controla esas capacidades en origen (entrenamiento) o en destino (acceso). Anthropic está apostando por ambos.Preguntas frecuentes¿Debo migrar de Opus 4.6 a Opus 4.7? Sí, es una mejora directa. Pero el tokenizador nuevo puede consumir más tokens por el mismo input (hasta 1,35x), así que conviene medir antes en tu tráfico real. ¿Cuánto cuesta? Igual que Opus 4.6: 5 dólares por millón de input tokens, 25 dólares por millón de output tokens. Disponible en API, Bedrock, Vertex AI y Foundry. ¿Puedo usar Opus 4.7 para investigación de ciberseguridad? Solo a través del nuevo Cyber Verification Program. Sin verificación, las salvaguardas bloquean automáticamente solicitudes que indiquen usos de alto riesgo en ciberseguridad.La noticia Anthropic lanza Claude Opus 4.7: el modelo que convierte tareas de horas en trabajo autónomo, con 3x más resolución visual y las primeras salvaguardas anti-ciberataque heredadas de Mythos fue publicada originalmente en Wwwhatsnew.com por Natalia Polo.