Anthropic explica como funcionam os freios de segurança do Claude Fable 5

Wait 5 sec.

O Claude Fable 5 está disponível para usuários do mundo inteiro – embora não dure muito até consumir todo o limite de interações. O modelo é uma variante do Claude Mythos 5, a inteligência artificial mais avançada da Anthropic, mas reforçado com mecanismos de segurança adicionais para evitar o uso malicioso.Nesta quinta-feira (2), a Anthropic divulgou um artigo detalhado acerca das salvaguardas embutidas no Fable 5. A documentação busca esclarecer o tema para o público geral e governos atentos aos desdobramentos sobre o modelo, uma vez que a IA teve disponibilidade restrita temporariamente por ordens dos Estados Unidos e freios ocultos abalaram a confiança da comunidade de pesquisadores.O sistema de defesa do Fable 5 conta com classificadores para interações e métricas de gravidade para jailbreaks. (Fonte: Anthropic/Reprodução)Quais são os mecanismos de segurança do Claude Fable 5?Nem todas as atividades relacionadas à cibersegurança são rejeitadas pelo Fable 5. Para diferenciar as solicitações, o modelo contém classificadores que as identificam:Uso benigno: atividades que não podem causar danos são permitidas, mas com certo monitoramento;Uso de baixo risco: atividades comumente utilizadas de forma defensiva, mas que também podem ter valor para agentes maliciosos, são liberadas, mas monitoradas e, às vezes, bloqueadas para evitar jailbreak;Uso de alto risco: atividades comuns entre agentes maliciosos, embora também úteis para aplicações benignas, são bloqueadas;Uso proibido: atividades que poderiam ser utilizadas para causar danos significativos e/ou danos na grande maioria dos usos, com pouca ou nenhuma utilidade defensiva, são bloqueadas.A Anthropic ressalta que a categoria de uso de baixo risco se sobrepõe consideravelmente com a margem de segurança do Fable. Os freios do modelo atuam contra vários usos inofensivos relacionados à cibersegurança – e a empresa adotou essa postura por precaução extra. "A margem de segurança significa que uma solicitação precisa parecer claramente segura para evitar o acionamento do classificador", descreve a companhia.A margem de segurança para uso de baixo risco é bem maior no Fable 5. (Fonte: Anthropic/Reprodução)Os classificadores não são os únicos mecanismos de proteção do Fable 5, porém. A empresa também adota controles de acesso, treinamento de segurança dedicado e monitoramento offline como camadas adicionais de precaução.O que é o 'uso proibido' do Fable 5?Na categoria de "Uso proibido" do Fable 5, estão incluídas as ações:Solicitações relacionadas a ataques de ransomware, wipers, deface, sabotagem de integridade de dados e negação de serviço;Sabotagem cibernética física: manipulação de processos físicos (energia, água, transporte, serviços médicos, óleo e gás) por meios digitais;Evasão de mecanismos de defesa: técnicas de evasão de antivírus ou sistemas de detecção e resposta de endpoint, anti-forense, adulteração de logs ou ofuscação;Desenvolvimento, aprimoramento, modificação ou debugging de malware, incluindo trojans, RATs, backdoors, worms, stealers, loaders e spyware;Desenvolvimento de infraestrutura command-and-control (C2).O que é o 'uso benigno' do Fable 5?Quanto à categoria de "Uso benigno", estão as interações:Programação segura e correções de vulnerabilidades conhecidas no projeto;Debugging;Tradução de código em linguagens seguras;Uso de TI geral, incluindo gestão de redes e cloud;Configuração defensiva de firewalls, sistemas de detecção e resposta e mais;Reportagem e descrições de alto nível sobre atividade cibernética;Planejamento contra incidentes.Como funciona o sistema de detecção de jailbreaks do Fable 5?O framework para avaliação de gravidade de jailbreaks ainda está em desenvolvimento junto à indústria de IA, segundo a Anthropic. O modelo adotado atualmente é uma espécie de rascunho e pode mudar ao longo do tempo.Na avaliação da gravidade de jailbreaks, um dos principais pontos avaliados é o potencial de destruição que um método oferece – isto é, quais capacidades bloqueadas o jailbreak desbloqueia. O sistema sugerido pela Anthropic é composto pela escala "Cyber Jailbreak Severity" ("CJS", ou "Escala de Gravidade de Jailbreak Cibernético" em português), que varia entre CJS-0 (nulo ou informacional) e CJS-4 (crítico).A Anthropic explica que o cálculo de gravidade considera quatro fatores:Desbloqueio de capacidades: quais funções o jailbreak consegue desbloquear;Amplitude do ganho de capacidades: em quantas tarefas ofensivas distintas aquela mesma técnica funciona;Facilidade de armamento: quanto esforço humano é necessário para transformar o jailbreak em um ataque em execução;Facilidade de descoberta: com que facilidade um agente de ameaça consegue obter a técnica pela primeira vez.Cada aspecto é avaliado de forma independente, numa escala entre 0 e 4. A soma, então, classifica a brecha dentro das categorias CJS.Primeira iteração de sistema de segurançaA Anthropic ressalta que o atual framework é a primeira iteração de um sistema de defesa robusto para modelos de alta capacidade como o Fable 5. "Estamos desenvolvendo isso com base em nossa própria experiência na prevenção de usos indevidos e com o auxílio de feedback de nossos parceiros do setor e do governo", destacou a empresa.A documentação completa acerca dos mecanismos de segurança do Fable 5, bem como os critérios específicos sobre as quatro variáveis de avaliação de jailbreaks, pode ser conferida no site da Anthropic.Quer ficar por dentro das novidades do mundo da tecnologia? Acesse o TecMundo e acompanhe as últimas notícias sobre Anthropic, Claude e segurança de IA.