The Atlantic publicó una base de datos de las canciones usadas para entrenar IA. Los artistas que se buscan están horrorizados

Wait 5 sec.

El 18 de junio, The Atlantic abrió al público una herramienta de búsqueda sobre cuatro datasets de música utilizados para entrenar modelos de IA generativa. Millones de canciones. Artistas que nunca dieron su consentimiento. Nombres que van desde Taylor Swift y Bad Bunny hasta DJ Sabrina the Teenage DJ, que descubrió que 22 de sus temas aparecen en los datasets de Suno.Lo recoge The Verge en su cobertura del viernes 20 de junio. La investigación la firma Alex Reisner para The Atlantic, que amplió así su herramienta AI Watchdog —lanzada en septiembre de 2025 para documentar libros, artículos académicos y vídeos de YouTube usados en el entrenamiento de IA— a la música.Los cuatro datasets tienen proporciones muy distintas. Los dos más grandes contienen 12 millones y 9 millones de canciones respectivamente. Los dos más pequeños superan los 100.000 temas cada uno. Todos circulan dentro de la comunidad de desarrollo de IA, según Reisner, y han sido descargados miles de veces. Google y Stability AI han confirmado haber utilizado estos datasets en papers de investigación.¿Qué artistas están y cómo han reaccionado?La reacción en redes sociales fue inmediata. Los artistas que se buscaron en la herramienta encontraron lo que temían. Backxwash escribió: «Estoy 100% segura de que nunca di mi consentimiento. Cualquiera que me conozca sabe que odio el uso de la IA en música, así que esto es muy decepcionante». DJ Sabrina the Teenage DJ fue más específica: «Es gracioso cómo hubo acusaciones de que mi música sonaba como IA antes de que estos datasets empezaran a usarse para generar basura. Quizás es porque Suno estaba usando un dataset que contenía 22 de mis canciones».Lunice encontró 20 de sus temas. Titus Andronicus descubrió 6 canciones suyas en los datos de Suno, entre ellas una pista de ruido ambiental y un corte poco conocido de su álbum de 2022. Sophia hjkl encontró 138 de sus canciones —casi todo lo que publicó entre 2017 y 2024.El catálogo de artistas que aparece en los datos mezcla con llamativa democracia los extremos del mercado musical: Lady Gaga, Fred Again.., Radiohead, Aphex Twin, Wu-Tang Clan, Bruce Springsteen. Nadie parece ser demasiado grande ni demasiado pequeño para quedar fuera.¿Qué dice esto del estado legal del entrenamiento de IA con música?El caso Suno y el debate del uso justo en la música generada por IA llevan dos años en los tribunales. La RIAA demandó a Suno y Udio en 2024 por usar grabaciones protegidas para entrenar sus modelos. El CEO de Suno, Mikey Shulman, comparó el entrenamiento con «un niño aprendiendo a escribir sus propias canciones de rock después de escuchar el género». La RIAA lo calificó de «robar el trabajo de vida de un artista y reempaquetarlo para competir directamente con los originales».AI Watchdog no resuelve ese debate, pero lo pone en números. La diferencia entre «entrenamos modelos con música disponible en internet» —lenguaje corporativo genérico— y «entrenamos con estas 9 millones de canciones específicas, entre ellas tus 22 últimas publicaciones» es la diferencia entre una abstracción y un caso de infracción potencialmente documentable.El productor Vince Valholla, de Valholla Records, resumió el problema con la perspectiva que los grandes nombres evitan dar: «Para ser honesto, hasta que las grandes discográficas terminen sus demandas, no hay manera de que los artistas ni los sellos independientes puedan defenderse». Los filtros de copyright de Suno se saltan con software libre en segundos, algo que ya documentó The Verge en abril de 2026, lo que añade una capa adicional al problema: las salvaguardas que las empresas ponen como argumento defensivo son técnicamente débiles.La respuesta de la industria discográfica ha sido doble. Por un lado, los litigios. Por otro, los acuerdos de licencia, que empiezan a marcar la tendencia de lo que viene. Warner Music adquirió Sureel AI en junio de 2026 precisamente para tener infraestructura de verificación de atribución: en lugar de confiar en las promesas de los generadores de IA de no usar obras protegidas, WMG quiere poder detectar cuándo se usan y reclamar la compensación correspondiente.Mi valoraciónLlevo más de dos décadas cubriendo la intersección entre música, tecnología y derechos de autor, desde los primeros litigios de Napster hasta los actuales. Lo que The Atlantic ha hecho con AI Watchdog es lo que los reguladores deberían haber exigido hace años: transparencia sobre qué datos se usan para entrenar sistemas comerciales.Lo que más me convence es la reacción de artistas independientes como DJ Sabrina the Teenage DJ: no hay rabia performativa sino perplejidad genuina, la de quien había asumido que sus trabajos de nicho eran demasiado pequeños para que alguien los robara. Esa perplejidad dice algo sobre la escala del problema.Lo que más me preocupa es el comentario de Valholla: «no hay manera de luchar». Los artistas independientes no tienen los recursos legales de las grandes discográficas. Y mientras los litigios corporativos tardan años, Suno y sus equivalentes siguen generando ingresos usando datos que nadie autorizó formalmente. AI Watchdog hace visible el problema; no lo resuelve.Mi predicción: antes de que acabe 2026 habrá al menos un acuerdo de licencia colectiva entre una plataforma de música generativa y una de las cuatro grandes sociedades de derechos de autor, similar al que Spotify firmó con Universal Music en mayo. El modelo que emerja de ese acuerdo definirá el estándar para el resto de la industria.Preguntas frecuentes¿Cómo puedo buscar mis canciones en AI Watchdog?La herramienta está disponible en el sitio de The Atlantic, en la sección AI Watchdog. Puedes buscar por nombre de artista o título de canción. Solo cubre los cuatro datasets identificados por Reisner; no es una lista exhaustiva de todo lo que los modelos han podido ingerir desde otras fuentes.¿Confirma esto que Suno usó esas canciones para entrenar?Los datasets identificados son «compartidos dentro de la comunidad de desarrollo de IA» según The Atlantic. Google y Stability AI confirmaron haber usado algunos en investigación. Que Suno o Udio los hayan usado específicamente no está confirmado por las empresas, pero las reacciones de artistas que encontraron sus canciones allí —y las menciones a Suno en algunos tweets— apuntan a esa conexión.¿Qué pasa con fuentes como el Free Music Archive?Algunos de los datasets incluyen fuentes como el Free Music Archive, que autoriza el streaming personal gratuito pero requiere licencia para uso comercial. El entrenamiento de un modelo de IA con fines comerciales casi con certeza cae dentro del uso comercial, aunque las empresas argumentan que se trata de uso justo (fair use) en el contexto del aprendizaje automático.La noticia The Atlantic publicó una base de datos de las canciones usadas para entrenar IA. Los artistas que se buscan están horrorizados fue publicada originalmente en Wwwhatsnew.com por Natalia Polo.