Cómo Anubis y otros métodos están defendiendo la web del rastreo masivo de la IA

Wait 5 sec.

La inteligencia artificial ha crecido de forma explosiva, y gran parte de ese avance se debe al acceso masivo a datos de la web. Artículos, imágenes, líneas de código, publicaciones de foros y hasta memes han sido utilizados como alimento para entrenar modelos cada vez más sofisticados. Sin embargo, este proceso ha provocado una reacción en cadena: cada vez más desarrolladores, medios y empresas están buscando formas de proteger su contenido del apetito insaciable de los bots de IA.La web como fuente de datos para la IAEl entrenamiento de los modelos de inteligencia artificial requiere enormes volúmenes de datos. Según estimaciones recientes, el contenido público de la web sumaba ya 149 zettabytes, una cifra difícil de imaginar: sería como intentar guardar toda la historia de la humanidad digitalizada miles de veces.Para aprovechar esta fuente, las empresas tecnológicas han desplegado bots que rastrean sitios web y recopilan información sin pedir permiso. Este proceso, conocido como web scraping, ha servido de base para entrenar sistemas capaces de generar texto, traducir idiomas, crear imágenes e incluso programar código.Algunas plataformas, como Reddit, Vox Media o la agencia AP, han decidido monetizar el acceso a sus datos firmando acuerdos con empresas de IA. Otras, sin embargo, han optado por denunciar. OpenAI, Google y Anthropic enfrentan actualmente múltiples demandas por presunto uso indebido de contenido protegido.Los bots de IA no paran… porque necesitan más datosLejos de detenerse, el interés por recolectar datos se ha intensificado. Investigaciones recientes apuntan a que los modelos de IA podrían quedarse sin datos nuevos de calidad hacia 2028. Esta escasez ha impulsado una carrera contrarreloj por recolectar cuanto se pueda antes de que se agoten los recursos útiles.En este contexto, proteger el contenido de la web se ha vuelto una prioridad, sobre todo para desarrolladores independientes y sitios autoalojados que no cuentan con grandes estructuras legales o comerciales para negociar condiciones con gigantes tecnológicos.Anubis: una barrera contra los bots entrenadores de IAAquí entra en escena Anubis, una herramienta creada por Xe Iaso, una desarrolladora canadiense que decidió actuar tras notar actividad sospechosa en su servidor Git. Un bot de Amazon parecía estar accediendo sistemáticamente a todos los enlaces, algo que levantó sus alarmas.Tras varias pruebas, desarrolló una solución ingeniosa: un sistema de verificación que permite distinguir entre humanos y bots sin incomodar al visitante. A este mecanismo lo bautizó como “uncaptcha”.¿Cómo funciona Anubis?Anubis se basa en una idea sencilla pero poderosa: si un navegador puede ejecutar cierto tipo de operación matemática compleja mediante JavaScript, entonces probablemente es humano. Este tipo de prueba es invisible para la mayoría de los usuarios, ya que los navegadores modernos (desde 2022) la resuelven automáticamente y sin afectar el rendimiento.Por el contrario, muchos bots no están diseñados para ejecutar este tipo de tareas criptográficas pesadas. Incluir esta función en cada bot de scraping resultaría demasiado costoso en términos de recursos computacionales, lo cual actúa como un filtro natural.En la práctica, cuando un visitante entra a un sitio protegido con Anubis, ve una pantalla de carga que dice “verificando que no seas un bot”. En segundos, si todo está bien, accede al sitio. Pero los bots quedan fuera.Un escudo para los más vulnerablesAnubis no está pensado para grandes plataformas, sino para personas que administran sus propios sitios web. Es gratuito, de código abierto y fácil de instalar si se tienen conocimientos técnicos básicos. Hasta ahora, ha sido descargado más de 200.000 veces, lo que demuestra un creciente interés por este tipo de defensa.Xe Iaso planea seguir desarrollando la herramienta. Entre las mejoras futuras se incluye una versión del test que no dependa de JavaScript (por quienes lo desactivan por privacidad) y otra que consuma menos recursos del CPU del usuario.Más allá de Anubis: otras estrategias contra el scrapingAnubis no es el único mecanismo en esta cruzada. Cloudflare, una de las mayores plataformas de protección de sitios web, ha comenzado a bloquear bots de IA por defecto. También está implementando un sistema que permitiría a los propietarios cobrar a las empresas de IA que deseen acceder a sus datos.Estas iniciativas marcan un cambio de tendencia. Si bien hace unos años parecía que los rastreadores de datos operaban sin freno, hoy existen herramientas concretas para decir “no”. Y más importante aún: cada vez más desarrolladores están usándolas.¿Y si ya se llevaron mis datos?Es difícil saber exactamente qué información ha sido capturada por los modelos actuales. Pero proteger tu sitio hoy ayuda a frenar futuros usos no autorizados. También puedes consultar si tu navegador pasa la prueba de Anubis, y revisar las instrucciones de instalación si gestionas una web.Este tipo de iniciativas no detendrá la IA, pero sí ayuda a establecer límites saludables. Como cuando alguien instala una reja en su casa: no es para evitar que exista la calle, sino para controlar quién entra.La noticia Cómo Anubis y otros métodos están defendiendo la web del rastreo masivo de la IA fue publicada originalmente en Wwwhatsnew.com por Natalia Polo.