Cuando 250 textos bastan para hackear la «verdad» de un LLM

Wait 5 sec.

Hay una idea tranquilizadora que muchos hemos dado por buena, casi por inercia: si un modelo se entrena con cantidades descomunales de datos, unas pocas gotas de «veneno» deberían «diluirse» hasta volverse irrelevantes. El problema es que esa intuición tan humana y tan de sentido común parece ser sencillamente falsa. Y no lo dice un tweet alarmista ni una demo oportunista: lo demuestra un trabajo conjunto de Anthropic, el UK AI Security Institute y el Alan Turing Institute que, por su diseño y su escala, merece cierta atención. La tesis, muy incómoda y profundamente desestabilizadora, es que una cantidad pequeña y fija de muestras maliciosas puede implantar una puerta trasera en modelos de lenguaje, independientemente de su tamaño.El artículo de Anthropic, «A small number of samples can poison LLMs of any size«, explica el fenómeno con una claridad poco habitual en comunicación corporativa: si un atacante logra introducir en el corpus de entrenamiento del orden de 250 documentos cuidadosamente construidos, puede conseguir que el modelo desarrolle un comportamiento «dormido» que solo se activa ante un detonante concreto. El experimento que eligen no es el más espectacular, y eso, paradójicamente, lo hace más creíble: una puerta trasera de tipo «denial-of-service» que, al detectar una palabra clave, provoca que el modelo empiece a generar texto sin sentido, «gibberish», como si se rompiera por dentro. No es un ataque diseñado para robar dinero ni para manipular elecciones: es, sobre todo, una demostración de control del tipo «puedo hacer que tu modelo haga esto cuando yo quiera, sin que lo haga el resto del tiempo». El detalle importante no es el truco del texto sin sentido, sino la métrica. Hasta ahora, se asumía un marco de amenaza que hablaba de porcentajes: para envenenar un modelo grande, el adversario debía controlar un porcentaje apreciable del entrenamiento, lo que en la práctica se vuelve inviable cuando hablamos de cientos de miles de millones de tokens. Esta investigación le da la vuelta: entrenan modelos entre 600M y 13B parámetros, con cantidades de datos «Chinchilla-optimal» (más datos para modelos más grandes), y observan que el ataque no escala con el tamaño: los mismos 250 documentos comprometen por igual a todos los modelos. Básicamente, el veneno no «se diluye» como se esperaba: aprende a sobrevivir. Esto provoca una sensación de fragilidad sistémica, y es porque efectivamente la tiene. Los LLM se entrenan en buena medida con texto abierto de internet, y el propio Turing Institute subraya la consecuencia obvia: cualquiera puede publicar contenido con la intención de acabar en esos datasets, y si el umbral real es «alrededor de 250», la barrera de entrada no es especialmente astronómica. No hace falta controlar «una parte de internet»: basta con encontrar las grietas en la cadena de suministro de datos. Y aquí está el punto clave: en 2026, el debate sobre LLM ya no es solo sobre «alucinaciones» o «sesgos», sino de integridad. ¿De dónde sale lo que el modelo «sabe»? ¿Quién lo ha tocado? ¿Qué incentivos hay para tocarlo? ¿Puede convertirse en una forma de acceder al control de las narrativas? Porque la puerta trasera del «texto sin sentido» es casi un juguete comparada con lo que la literatura ya ha explorado en otros contextos: puertas traseras para degradar seguridad, para inducir conductas dañinas o para saltarse el alineamiento. El propio artículo de Anthropic enlaza trabajos sobre backdoors que funcionan como una especie de «comando universal» para obtener respuestas dañinas cuando aparece un determinado disparador. Y si alguien piensa «sí, pero eso es alineamiento y RLHF, no pre-entrenamiento», mal pensado: la lección transversal es exactamente la misma. En un sistema que aprende correlaciones, una correlación plantada a propósito puede ser más resistente que millones de correlaciones benignas. Los paralelismos más inquietantes aparecen cuando sales de la prueba de laboratorio de generar «gibberish» y te vas a ámbitos donde el coste del error no es un meme, sino potencialmente vidas. En 2024, un estudio en Nature Medicine simuló un ataque de envenenamiento sobre The Pile (uno de los conjuntos de datos emblemáticos del ecosistema) insertando desinformación médica: con tan solo 0.001% de los tokens reemplazados por falsedades plausibles, el modelo resultante se volvía más proclive a propagar errores médicos, y lo peor es que seguía aparentemente «rindiendo igual de bien» en los benchmarks estándar. Ese es el verdadero veneno: el que no cambia una nota en un examen, pero sí lo que un médico recomienda en su consulta. Con esto se rompe otra fantasía muy extendida: la de que la evaluación «objetiva» nos salvará. Si el ataque es selectivo, si está diseñado para activarse con un detonante o para afectar a un subconjunto de preguntas determinado, puedes pasar todos los tests habituales y seguir estando comprometido. En seguridad llevan décadas hablando de esto: los sistemas que «parecen» correctos en condiciones normales y fallan cuando alguien sabe de qué manera apretar el botón. Lo nuevo es que ahora ese sistema escribe, aconseja, programa, resume, negocia, traduce y, cada vez más, actúa como intermediario cognitivo en miles de decisiones humanas. Por eso no sorprende que marcos de riesgo recientes ya lo incluyan explícitamente. OWASP, en su lista de riesgos para aplicaciones con LLM, identifica el Data and Model Poisoning como un vector de integridad con consecuencias claras: backdoors, sesgos introducidos a propósito, degradación de comportamiento y ataques difíciles de detectar porque el modelo puede comportarse «normal» hasta que se activa el gatillo. Y NIST, en su taxonomía de adversarial machine learning publicada como guía de referencia, incorpora categorías como backdoor poisoning y ataques a la cadena de suministro, precisamente para empujar a la industria a pensar en términos de ciclo de vida y no simplemente de «modelo desplegado». Cuando ya los organismos de estandarización más fiables empiezan a hablar así, suele ser porque el problema ya ha dejado de ser teórico, y se ha convertido en riesgos plausibles. La pregunta ya no es si esto puede dañar la reputación de los LLM, sino qué pasa con su credibilidad a medida que se van convirtiendo en infraestructura para cada vez más cosas. Porque si aceptamos que un modelo puede ser entrenado con datos opacos, procedencia difusa y controles imperfectos, y que un atacante con paciencia puede plantar unas pocas docenas o centenares de piezas diseñadas para sobrevivir al proceso, entonces el modelo deja de ser solo probabilístico y pasa a ser potencialmente adulterado. Y ahí cambia el contrato social: un sistema que «a veces se equivoca» es gestionable, pero un sistema que puede estar manipulado sin señales visibles se vuelve políticamente tóxico y regulatoriamente muy complejo. ¿Hay salida? La hay, pero no es cómoda ni barata, y desde luego no encaja bien con la cultura de «muévete rápido y rompe cosas» que ha llevado a una dinámica de entrenamiento sin prácticamente revisión. Lo que estos trabajos llevan a admitir es que los LLM necesitan algo que en software llevamos años asumiendo: una cadena de suministro con controles, auditorías, trazabilidad y mecanismos de verificación. No basta con filtrar «contenido malo» o con deduplicar. Hablamos de procedencia verificable, de procesos de curación reproducibles, de monitorización de anomalías durante el entrenamiento, de tests diseñados para detectar comportamientos condicionales, de red teaming continuo y, probablemente, de aceptar que ciertos usos críticos exigirán modelos y datasets mucho más cerrados, especializados y controlados de lo que a algunos les gustaría. Y eso cuesta dinero.Y aun así, conviene no engañarse: esto no es un bug que se parchea una vez. Es un síntoma de una realidad más profunda: estamos construyendo máquinas de generalización estadística sobre un sustrato informacional, la web, que es, cada vez más, un campo de batalla lleno de cadáveres y de basura. Si entrenar significa absorber internet, entonces la seguridad de tu modelo depende de la seguridad de internet, y eso es brutalmente peligroso, porque todos sabemos lo que hay ahí. El artículo de Anthropic no es una anécdota; es un aviso: en el mundo que viene, la pregunta de si puedo confiar en lo que dice un modelo determinado no se responderá solo con métricas de precisión, sino con algo mucho más incómodo: «¿puedo confiar en cómo se hizo, con qué datos se entrenó, y quién haberlos manipulado?”