Uma nova pesquisa revelou que milhões de imagens sensíveis, incluindo documentos de identidade, cartões de crédito e certidões de nascimento, estão presentes em um dos maiores bancos de dados usados para treinar inteligências artificiais (IAs) capazes de gerar imagens realistas.O material faz parte do DataComp CommonPool, um repositório colossal formado por bilhões de imagens coletadas automaticamente da internet. A ideia era simples: alimentar os algoritmos com o máximo de conteúdo visual possível. Mas, no meio de paisagens, objetos e rostos anônimos, os pesquisadores encontraram, também, arquivos delicados, como passaportes digitalizados, carteiras de motorista e fotos de pessoas identificáveis.Um megabanco de dados aberto, pronto para ser explorado — até comercialmente (Imagem: Jirsak/Shutterstock)Em alguns casos, o conteúdo incluía dados ainda mais sensíveis. Mais de 800 currículos e cartas de apresentação foram rastreados até perfis reais em redes, como o LinkedIn. Segundo os autores do estudo, esse é apenas um recorte ínfimo do total, o que levanta um alerta sério sobre o que exatamente está sendo usado para ensinar as máquinas a enxergar o mundo.Um oceano de dados livres e perigosos para as IAs usaremLançado em 2023, o DataComp CommonPool se tornou o maior conjunto público de pares imagem-texto já criado, reunindo impressionantes 12,8 bilhões de amostras coletadas da internet;Embora seus organizadores afirmem que o objetivo era acadêmico, a licença do projeto não impede o uso comercial, o que abre espaço para que empresas usem esse material sem grandes restrições;O CommonPool foi desenvolvido como sucessor do LAION-5B, um banco de dados semelhante que serviu de base para treinar ferramentas populares, como o Stable Diffusion e o Midjourney;Ambos se alimentam da mesma fonte: dados raspados automaticamente da web pelo projeto Common Crawl entre 2014 e 2022. Isso significa que as falhas de privacidade encontradas agora, provavelmente, se repetem em modelos anteriores e em diversas IAs já em uso.Leia mais:Privacidade em risco? Apps com IA pedem permissões excessivasNovo vazamento de dados ameaça privacidade de milhõesBrasil é o sexto país com mais vazamento de dados no mundoDesde seu lançamento, o CommonPool já foi baixado mais de duas milhões de vezes, segundo os pesquisadores. Para Rachel Hong, doutoranda em ciência da computação pela Universidade de Washington (EUA) e autora principal do estudo, esse número indica que há uma grande quantidade de modelos derivados espalhados pelo mundo, todos potencialmente carregando os mesmos riscos à privacidade.O que está na internet não deveria ser combustível para máquinas (Imagem: Jacob Wackerhausen/iStock)Privacidade em risco e leis de IAs ainda no século passadoO estudo também faz um alerta direto à comunidade de inteligência artificial: é hora de repensar a prática generalizada de coletar, automaticamente, informações da internet sem critério. Os pesquisadores apontam que o uso massivo de dados pessoais em conjuntos, como o CommonPool, pode violar leis de privacidade já existentes, embora essas mesmas leis ainda apresentem muitas brechas.Na Europa e em alguns estados estadunidenses, já existem regras voltadas à proteção de dados pessoais. No entanto, os Estados Unidos ainda carecem de uma legislação federal unificada, o que faz com que os direitos de privacidade variem de acordo com a região.Mesmo onde há algum tipo de regulamentação, ela, muitas vezes, não se aplica a projetos acadêmicos nem protege dados classificados como “publicamente disponíveis“.O problema é que esse conceito de “informação pública” pode ser enganoso. Segundo os autores do estudo, conteúdos, como currículos, fotos pessoais, números de documentos e até blogs familiares, acabam sendo tratados como dados livres, mesmo quando expõem informações privadas. Para os pesquisadores, o caso do CommonPool deveria servir de alerta: o que está na internet não deveria, automaticamente, virar combustível para máquinas.Problema é que esse conceito de “informação pública” pode ser enganoso (Imagem: Good Faces/Unsplash)O post Seu rosto, CPF e currículo podem estar alimentando IAs; entenda apareceu primeiro em Olhar Digital.