Claude Sonnet 4.5: el nuevo referente en agentes autónomos y programación de alto nivel

Wait 5 sec.

Claude Sonnet 4.5 ha llegado con mejoras significativas que lo colocan como una referencia destacada en el ecosistema de modelos de lenguaje. Su punto fuerte es la capacidad de actuar como un agente autónomo altamente competente, logrando sostener tareas complejas durante más de 30 horas con un enfoque sostenido, lo que representa un salto cualitativo frente a sus predecesores. Este rendimiento prolongado no solo es destacable por la duración, sino también por la coherencia en las respuestas y la capacidad de mantener el contexto en tareas prolongadas, como el desarrollo de aplicaciones full-stack completas.Liderazgo en programación y uso de herramientasEn el terreno del código, Claude Sonnet 4.5 se posiciona como el mejor modelo del mercado según la evaluación SWE-bench Verified, superando incluso a GPT-5 y Gemini 2.5 Pro. La versión alcanza un 82% de precisión con computación paralela en pruebas de codificación real. Su habilidad para detectar errores, refactorizar código y generar implementaciones listas para producción ha sido elogiada por compañías como Netflix, que destaca su comprensión profunda del contexto en entornos de desarrollo reales.Además de la programación, este modelo también brilla en el uso de herramientas como terminales, interfaces de código, hojas de cálculo y navegadores, gracias a su dominio en benchmarks como OSWorld, donde alcanza un 61,4%, frente al 42,2% de su versión anterior. Esto se traduce en una interacción mucho más fluida y autónoma con entornos informáticos reales, acercándose a una verdadera colaboración humano-máquina.Aplicaciones en sectores clave: finanzas, derecho y ciberseguridadUna de las mejoras más notables de Claude Sonnet 4.5 es su rendimiento en sectores específicos como las finanzas. En el benchmark Finance Agent, logra un 55,3%, superando ampliamente a versiones anteriores e incluso a modelos más potentes como Claude Opus 4.1. Esto implica una mayor precisión al analizar datos financieros, hacer modelado y proyecciones, lo que ha sido valorado por firmas como NBIM, que lo ha integrado en sus operaciones de inversión.En el ámbito del derecho, empresas como Thomson Reuters destacan su capacidad para sintetizar argumentos legales y generar borradores de resoluciones judiciales a partir de expedientes completos. Su mejora en tareas de investigación jurídica compleja lo convierte en una herramienta robusta para abogados y jueces.En ciberseguridad, Claude Sonnet 4.5 se ha utilizado para detectar vulnerabilidades, analizar amenazas y generar respuestas automatizadas con rapidez y precisión. HackerOne, por ejemplo, reporta una reducción del 44% en el tiempo de respuesta ante vulnerabilidades, con una mejora del 25% en la exactitud.Herramientas para desarrolladores: SDK, extensiones y ejecución de códigoAnthropic acompaña esta versión con un ecosistema completo de herramientas que potencia la construcción de agentes personalizados. Entre ellas destaca el Claude Agent SDK, que permite a los desarrolladores crear sus propios agentes con las mismas funcionalidades que Claude Code, incluyendo manejo de contexto, memoria y permisos.También se ha lanzado una extensión oficial para VS Code y una interfaz de terminal mejorada, además de nuevas funciones en la Claude API que permiten ejecutar código, crear archivos y analizar datos directamente desde la conversación. Estas capacidades ya están disponibles en todos los planes pagos de Claude.El modelo puede incluso generar documentos como hojas de cálculo o presentaciones, todo a partir de lenguaje natural, lo que abre la puerta a un uso más intuitivo y eficiente de herramientas digitales complejas.Rendimiento superior en tareas académicas y multilingüesClaude Sonnet 4.5 no solo destaca en tareas aplicadas, sino también en evaluaciones académicas exigentes. En la competición AIMEE 2025 de matemáticas de nivel secundario, obtiene un 100% de aciertos con código y un 87% sin herramientas. También logra un 83,4% en tareas de razonamiento a nivel de posgrado y un 89,1% en preguntas multilingües, demostrando una solidez general que mejora la comprensión y generación de contenido en distintos idiomas.Seguridad, alineación y protecciones integradasUno de los aspectos más sensibles en el desarrollo de modelos avanzados es su alineación con valores humanos y su seguridad. Claude Sonnet 4.5 opera bajo el nivel de seguridad ASL-3, que incluye filtros específicos para prevenir respuestas peligrosas relacionadas con amenazas biológicas o nucleares. Anthropic ha logrado reducir los falsos positivos de estos filtros en un factor de diez desde su versión anterior, sin sacrificar la funcionalidad.También se han mitigado comportamientos no deseados como la complacencia excesiva, la manipulación o la desinformación. Esto refuerza la confianza de los usuarios en contextos donde la precisión y la ética son críticas.Mirando hacia adelanteClaude Sonnet 4.5 marca un punto de inflexión en el uso de inteligencia artificial aplicada. Su combinación de rendimiento técnico, alineación con principios de seguridad, y herramientas de desarrollo avanzadas, lo convierten en una plataforma ideal tanto para usuarios corporativos como para desarrolladores individuales. Con mejoras claras en codificación, uso de herramientas, finanzas, derecho y ciberseguridad, este modelo abre nuevas posibilidades para resolver problemas complejos de forma más inteligente y eficiente.La noticia Claude Sonnet 4.5: el nuevo referente en agentes autónomos y programación de alto nivel fue publicada originalmente en Wwwhatsnew.com por Natalia Polo.