EVMbench: el nuevo termómetro para medir si los agentes de IA saben encontrar, arreglar y explotar fallos en smart contracts

Wait 5 sec.

Los contratos inteligentes son como máquinas expendedoras que viven en una blockchain: metes una condición y, si se cumple, sueltan el resultado sin pedir permiso a nadie. El problema es que, cuando esa máquina custodia valor real, un tornillo mal puesto puede convertirse en una puerta trasera. OpenAI recuerda que estos contratos llegan a proteger más de 100.000 millones de dólares en activos cripto de código abierto, una cifra que explica por qué la seguridad de smart contracts se ha vuelto un deporte de alto riesgo.En paralelo, los agentes de IA han mejorado mucho leyendo y escribiendo código, y también ejecutándolo. Si una IA puede revisar un repositorio como lo haría un auditor, también puede comportarse como un atacante paciente que prueba combinaciones hasta dar con la que drena fondos. El punto de OpenAI y Paradigm es directo: si el “nivel” de las máquinas sube, conviene medirlo en un entorno donde los errores se pagan caros.Qué es EVMbench y qué intenta medir de verdadEVMbench es un benchmark, una batería de pruebas, para evaluar si los modelos y agentes son capaces de desenvolverse en seguridad sobre contratos compatibles con la Ethereum Virtual Machine (EVM). Se presenta como un marco abierto y orientado a vulnerabilidades graves: las que, en la práctica, pueden terminar en pérdida de fondos. Lo desarrollan OpenAI y Paradigm, apoyándose en hallazgos reales de auditorías, con el objetivo de medir tres habilidades que, juntas, describen el ciclo completo de un fallo: encontrarlo, arreglarlo y explotarlo.Un matiz importante: no se trata solo de “¿sabe señalar un bug?”, sino de “¿aguanta una evaluación reproducible, con pruebas, despliegues y verificación automática?”. Para eso, EVMbench propone entornos de tarea con scripts, pruebas y un sistema de corrección que intenta evitar trampas típicas cuando un agente busca atajos.De dónde salen las vulnerabilidades: auditorías reales y escenarios de pagosEl conjunto inicial incluye 120 vulnerabilidades seleccionadas a partir de 40 auditorías. La mayor parte proviene de competiciones de auditoría de código abierto, con un peso claro de Code4rena, plataforma de concursos donde los auditores compiten por recompensas revisando repositorios. En el paper se describe ese proceso y se justifica el filtrado hacia hallazgos de alta severidad, los que pueden conducir a pérdida directa de fondos.Hay un segundo ingrediente que le da contexto práctico: escenarios vinculados a la auditoría de seguridad de Tempo, una blockchain de capa 1 pensada para pagos de alto rendimiento y bajo coste vía stablecoins. La intención es “aterrizar” parte del benchmark en código orientado a pagos, un terreno donde OpenAI espera crecimiento de pagos con agentes.Paradigm añade un detalle interesante desde su propia nota: el benchmark combina vulnerabilidades de auditorías abiertas con tareas personalizadas basadas en contratos no publicados, y cada entorno está “containerizado” para que el agente opere en condiciones realistas. También mencionan un “answer key” por tarea para verificar que el propio benchmark es resoluble.Los tres modos de evaluación: detectar, parchear y explotarEVMbench separa el problema en tres modos que, en la vida real, suelen recaer en perfiles distintos dentro de un equipo.En detect, el agente actúa como auditor: recibe un repositorio y debe localizar vulnerabilidades conocidas como “ground truth”. La puntuación se calcula por la tasa de hallazgos y se asocia incluso a recompensas históricas de auditoría, para mantener el incentivo alineado con lo que paga el mercado. En el paper se explica que usan un juez basado en modelo para decidir si el informe del agente cubre cada vulnerabilidad del baseline.En patch, el agente toca el código. Aquí no basta con escribir una corrección “bonita”: tiene que eliminar la explotabilidad sin romper la funcionalidad prevista. La verificación se apoya en tests existentes del repositorio y, para evitar trampas, el evaluador restaura archivos que el agente no debería modificar y ejecuta pruebas de explotación no vistas. Es muy parecido a arreglar una tubería sin cortar el agua: si queda seca, bien; si inundas el piso de abajo, mal.En exploit, el agente se pone la gorra del atacante y debe drenar fondos de contratos desplegados en una blockchain local aislada. Recibe un endpoint RPC, una clave privada con fondos y metadatos como direcciones de contrato. La corrección se hace reejecutando transacciones de forma determinista y verificando el estado on-chain, sin depender de una red pública. OpenAI recalca que las tareas corren sobre un entorno local de Anvil y que el harness, escrito en Rust, restringe métodos RPC peligrosos.Resultados: cuando “atacar” parece más fácil que “arreglar”Uno de los datos que más titulares ha generado es el rendimiento en exploit. En ese modo, GPT-5.3-Codex ejecutándose con Codex CLI alcanza un 72,2%, frente al 31,9% de GPT-5, según OpenAI. Paradigm, por su parte, resume la tendencia con una idea simple: hace no tanto, los modelos punteros explotaban menos del 20% de bugs críticos de Code4rena; hoy ya superan el 70% en este marco.La lectura cualitativa también importa. OpenAI observa que los agentes rinden mejor cuando la meta es explícita y verificable, como “sigue hasta drenar fondos”. En detect, a veces se detienen tras encontrar un problema, como quien revisa una maleta, descubre un objeto prohibido y da por terminado el control sin mirar el resto. En patch, el reto es quirúrgico: mantener comportamiento, permisos, compatibilidad y casos borde, mientras se elimina una vulnerabilidad que a menudo es sutil.Limitaciones: lo que EVMbench no cubre todavíaOpenAI avisa que EVMbench no representa toda la dificultad del mundo real. Aunque las vulnerabilidades son realistas y severas, muchos contratos muy usados pasan por más rondas de auditoría y endurecimiento, lo que puede elevar la barrera para explotar. También hay un problema clásico en evaluación: si el agente reporta fallos adicionales, no siempre es fácil decidir automáticamente si son hallazgos genuinos o falsos positivos.En exploit hay restricciones estructurales. El paper detalla que la reproducción de transacciones se hace de forma secuencial, dejando fuera comportamientos que dependen de timing complejo. El estado de cadena parte de una instancia local “limpia” de Anvil, sin fork de mainnet, y hoy se limita a entornos de una sola cadena, lo que obliga a veces a usar contratos simulados para piezas que en producción existen en Ethereum Mainnet.Por qué este benchmark importa para equipos de desarrollo y seguridadLa utilidad práctica de un benchmark así no es solo comparar modelos. Sirve para empujar una cultura de auditoría asistida por IA con expectativas realistas. Si un agente es muy competente explotando y menos competente parcheando, el mensaje para equipos de producto es claro: hay que reforzar procesos defensivos, pruebas, revisiones humanas y herramientas que guíen al agente hacia exhaustividad y correcciones seguras.OpenAI enmarca EVMbench como una herramienta de medición y, a la vez, como un llamado a usar IA de forma defensiva. Menciona salvaguardas en preparación para mitigar el uso malicioso de capacidades avanzadas, con medidas como entrenamiento orientado a seguridad, monitorización automatizada, acceso de confianza y canalizaciones de enforcement con inteligencia de amenazas. También cita inversiones en el ecosistema, como ampliar la beta privada de Aardvark, su agente de investigación en seguridad, y colaboraciones con mantenedores open source para escaneo gratuito de proyectos ampliamente usados.En la misma línea, OpenAI señala un compromiso de 10 millones de dólares en créditos de API para acelerar la defensa cibernética, especialmente en software open source e infraestructuras críticas, dentro de su Cybersecurity Grant Program. Este tipo de incentivos puede marcar diferencia para equipos pequeños que no pueden pagar auditorías extensas, pero sí pueden integrar pruebas automatizadas y revisiones asistidas por modelos.La noticia EVMbench: el nuevo termómetro para medir si los agentes de IA saben encontrar, arreglar y explotar fallos en smart contracts fue publicada originalmente en Wwwhatsnew.com por Natalia Polo.