Inteligência artificial passa em “teste final”? Banco mede nível de acerto

Wait 5 sec.

Pesquisadores de mais de 40 países, com participação brasileira, criaram um banco de dados que promete funcionar como um “teste final” para medir o avanço da inteligência artificial.A ferramenta, chamada Humanity’s Last Exam (HLE) —ou “o último exame da humanidade”—, está disponível para uso público e teve seu funcionamento descrito na revista Nature. As informações foram divulgadas pelo Jornal da USP, da Universidade de São Paulo. Leia Mais FMU testa novo modelo de avaliação acadêmica mediada por IA Unesp 2026: confira os destaques da primeira fase do vestibular USP lança ferramenta de IA para combater desistência de alunos O HLE reúne 2.500 questões distribuídas em dezenas de áreas do conhecimento, como matemática, ciências naturais e humanidades. O objetivo é avaliar, com precisão, o nível de acerto de modelos de IA, incluindo os chamados LLMs (modelos de linguagem de grande porte), como o ChatGPT e Gemini.“A ideia é essencialmente criar uma ferramenta para medir o avanço dos modelos de IA de hoje”, afirmou ao Jornal da USP a pesquisadora Emily de Oliveira Santos, do Instituto de Ciências Matemáticas e da Computação da USP, em São Carlos (SP), que contribuiu com o desenvolvimento do projeto.Segundo ela, empresas que desenvolvem modelos de IA costumam divulgar o desempenho de suas tecnologias com base em benchmarks (conjuntos padronizados de problemas usados para testar capacidades técnicas).“Benchmarks são coletâneas de problemas e, mais recentemente, tarefas, que buscam testar as capacidades de um dado modelo. A proposta original do HLE é essencialmente criar o ‘benchmark supremo’, um teste onde tirar próximo a 100% seria equivalente a conseguir fazer qualquer coisa que um ser humano faz”, afirma a pesquisadora da USP.Como funciona o testeDe acordo com Emily Santos ao Jornal da USP, o diferencial do HLE é que todas as questões possuem resposta única e objetivamente verificável.“Isso significa que todas as respostas são objetivas e únicas, quer dizer, dois especialistas em um determinado assunto chegariam exatamente numa mesma resposta correta”, disse. “As respostas costumam ser um número inteiro ou algo que é igualmente fácil de verificar.”Na prática, pesquisadores podem rodar modelos de IA nas questões do banco de dados por meio de scripts padronizados. Depois, a resposta gerada pelo sistema é comparada com o gabarito oficial, permitindo calcular o percentual de acerto.“Desse modo, você pode extrair a resposta final do texto que o LLM gera e checar se a porcentagem das respostas bateram com as respostas corretas, e ao final disso você sabe o quão bem, ou o quão mal, o LLM foi no teste”, explicou a pesquisadora.O que o exame medeO banco de dados foi estruturado para avaliar diferentes tipos de habilidade —do conhecimento científico ao raciocínio aplicado.Segundo Emily, o HLE pode testar desde conhecimentos gerais e senso comum até competências mais complexas, como a aplicação da equação de Schrödinger na mecânica quântica.“O HLE também pode testar a agência, que seria a capacidade de fazer ações no mundo.”Como exemplo, ela cita uma questão que envolve dobrar um origami de tsuru, desfazer as dobras e calcular em quantas partes o papel foi dividido.O projeto foi disponibilizado no site lastexam.ai com a proposta de subsidiar pesquisas e políticas públicas relacionadas à inteligência artificial.Além da USP, o trabalho envolve o Center for AI Safety, a empresa Scale AI, ambos sediados em São Francisco, e o HLE Contributors Consortium.Brasil está entre os países que mais usam inteligência artificial