Claude, el asistente de Anthropic, implicado en un ciberataque automatizado a escala global

Wait 5 sec.

Lo que hasta hace poco parecía una escena sacada de una película de ciencia ficción se ha convertido en realidad: un modelo de inteligencia artificial ha sido empleado como herramienta principal en una sofisticada campaña de ciberespionaje internacional. Según informó Anthropic, empresa desarrolladora del asistente de IA Claude, un grupo de hackers patrocinado por el estado chino logró utilizar su tecnología para ejecutar ataques cibernéticos contra bancos y organismos gubernamentales en distintos países.La novedad de este caso radica en que la mayor parte del ataque fue llevada a cabo de forma autónoma por la inteligencia artificial, sin intervención humana constante. Anthropic lo describió como «el primer caso documentado de un ciberataque a gran escala ejecutado sin intervención humana significativa», lo cual marca un punto de inflexión en la historia de la ciberseguridad.Cómo se engañó al sistema de protecciónLos atacantes, con un grado notable de sofisticación, lograron sortear los controles de seguridad del modelo. Se hicieron pasar por empleados de empresas legítimas de ciberseguridad que realizaban pruebas defensivas, una estrategia que les permitió que Claude colaborara con ellos sin cuestionar los fines reales de las tareas solicitadas.Para evitar levantar sospechas, descompusieron el ataque en tareas pequeñas e inocentes que, por separado, no parecían maliciosas. Como si alguien pidiera una serie de pasos para armar una silla, sin decir que la usará para bloquear una puerta durante un robo. Esta fragmentación impidió que el modelo detectara el contexto completo y se activaran las alarmas de seguridad.El papel de los agentes autónomosUno de los aspectos más preocupantes es el uso de capacidades «agénticas» del modelo: funciones que permiten encadenar tareas de forma autónoma y orientada a objetivos. Esta autonomía, pensada para mejorar la productividad en escenarios positivos, puede convertirse en una herramienta peligrosa en manos equivocadas.Anthropic informó que los atacantes lograron comprometer cerca de treinta objetivos globales, aunque no se revelaron detalles sobre las identidades de las víctimas ni sobre la información comprometida. Si bien la IA ejecutó entre el 80 y 90 % de las acciones del ataque, los humanos intervinieron solo en puntos clave, como quien corrige el rumbo de una máquina que hace el trabajo sucio de forma casi automática.Las limitaciones de la inteligencia artificial criminalA pesar del éxito parcial del ataque, los hackers también se toparon con limitaciones inherentes a la IA. El modelo Claude presentó «alucinaciones», es decir, generó respuestas falsas o exageradas sobre sus capacidades. Por ejemplo, afirmaba haber accedido a sistemas que en realidad no había comprometido. Esta tendencia a exagerar o inventar obligó a los humanos a revisar las acciones y ajustar el plan.Este detalle resulta paradójico: la misma debilidad que pone en duda la fiabilidad de los modelos de IA en usos profesionales, se convierte en un freno para su utilización maliciosa sin supervisión. Pero con la mejora constante de estos sistemas, ese margen de error podría reducirse rápidamente, y con ello aumentar el riesgo de ataques completamente automatizados.Reacción y medidas de contenciónLa actividad sospechosa fue detectada por Anthropic en septiembre. Desde ese momento, iniciaron una investigación que se extendió durante diez días. En ese periodo, se cancelaron cuentas implicadas, se alertó a las organizaciones afectadas y se colaboró con las autoridades para mitigar el impacto.Si bien la empresa afirma haber corregido las vulnerabilidades explotadas, este caso ha encendido todas las alarmas en el sector. El modelo, diseñado para ayudar en tareas cotidianas y profesionales, se convirtió en una herramienta capaz de facilitar operaciones de espionaje sin que sus creadores lo detectaran a tiempo.Implicaciones para el futuro de la ciberseguridadEste episodio abre una preocupante ventana hacia el futuro de la ciberseguridad. La existencia de IA lo suficientemente potente como para ejecutar un ataque complejo sin intervención humana constante plantea nuevos desafíos tanto para desarrolladores como para defensores de sistemas.Según el equipo de red team de Anthropic, es vital que las herramientas defensivas mantengan una ventaja permanente sobre las ofensivas. Pero esta tarea se vuelve cada vez más difícil conforme los modelos mejoran. ¿Cómo distinguir entre un uso legítimo y uno malicioso cuando las acciones individuales son inofensivas? ¿Cómo impedir que agentes autónomos sean manipulados con narrativas creíbles?Tal como una cerradura pierde eficacia si se puede abrir con una copia fácilmente fabricada, los sistemas de IA necesitan algo más que barreras estáticas para resistir el ingenio de los atacantes. Se requiere una vigilancia continua, validación contextual y colaboración internacional para anticiparse a estas nuevas formas de amenaza.El delicado equilibrio entre avance tecnológico y seguridadEste incidente también cuestiona el discurso de muchas empresas de IA que promueven la ética y la seguridad como pilares de su trabajo. El hecho de que una tecnología como Claude, diseñada bajo estos principios, haya sido utilizada con fines ilícitos demuestra que las intenciones no bastan sin mecanismos de control realmente eficaces.A medida que los modelos de lenguaje se integran en navegadores, plataformas de trabajo y entornos cotidianos, es imprescindible preguntarse quién controla sus capacidades, cómo se verifica su uso y qué mecanismos existen para evitar que se transformen en cómplices involuntarios del delito.El caso de Claude marca un antes y un después: si hasta ahora los ataques cibernéticos eran obra de humanos con conocimientos técnicos, el futuro podría traer amenazas generadas por inteligencias artificiales que operan a velocidad y escala imposibles de alcanzar por personas. Prepararse para esa posibilidad ya no es una opción, sino una necesidad.La noticia Claude, el asistente de Anthropic, implicado en un ciberataque automatizado a escala global fue publicada originalmente en Wwwhatsnew.com por Natalia Polo.