Modelo de IA super seguro da Anthropic é hackeado por jogo de adivinhação

A Anthropic, que se gabava de seu modelo de IA ser inviolável, sofreu uma violação de segurança através de um palpite educado e informações internas, provando que a arrogância ainda é a vulnerabilidade mais fácil de explorar.

A Anthropic, empresa que passou semanas dizendo a todos que seu modelo Claude Mythos era perigoso demais para ser lançado publicamente, aprendeu uma lição valiosa: se você se gabar de que sua IA é inviolável, alguém vai aceitar o desafio. De acordo com a Bloomberg, um “pequeno grupo de usuários não autorizados” vem aproveitando o Mythos desde o dia em que a Anthropic anunciou que estava compartilhando o modelo com um grupo seleto de testadores. A empresa diz que está investigando, o que é mais ou menos como um chaveiro descobrir que sua própria porta da frente é de papelão.

Do ponto de vista tecnológico, a violação é quase cativantemente de baixa tecnologia. O grupo supostamente acessou o Mythos fazendo “um palpite educado sobre a localização online do modelo”, usando informações de uma violação anterior da Mercor — uma empresa que fabrica dados de treinamento de IA — além de conhecimento interno do trabalho de um membro como contratado avaliando modelos da Anthropic. Portanto, não estamos falando de um ciber-assalto sofisticado; estamos falando de alguém tentando uma maçaneta e descobrindo que ela está destrancada.

O pesquisador de segurança Lukasz Olejnik descreveu a falha como “totalmente imaginável” — o tipo de coisa com que a indústria de segurança cibernética lida há 20 anos. A Anthropic, que poderia registrar e rastrear o uso do modelo, aparentemente não estava monitorando de perto o suficiente para notar os convidados indesejados. Dado o quão perigoso a empresa alega que o Mythos é, você pensaria que eles pelo menos verificariam a lista de convidados.

Segundo a Bloomberg, o grupo não estava usando o Mythos para tarefas de segurança cibernética — em parte porque só queriam brincar, e em parte porque fazer isso poderia ter alertado a Anthropic. Se a mensagem da Anthropic for levada a sério, isso é um golpe de sorte. A empresa enquadrou o Mythos como um “momento divisor de águas para a segurança”, alegando que encontrou vulnerabilidades em “todos os principais sistemas operacionais e navegadores da web”, e vem distribuindo acesso a governos e instituições financeiras em todo o mundo. A NSA supostamente tem acesso, embora a CISA tenha ficado de fora até agora.

“A Anthropic afirma estar na vanguarda absoluta de todas essas tecnologias, mas também se posiciona como o ator responsável em tudo isso”, disse Pia Hüsch, pesquisadora do Royal United Services Institute (RUSI). Ela resumiu todo o episódio em uma palavra: humilhação. “O fato de isso ter sido acessado por meios não autorizados tão rapidamente, e através de uma tentativa tão pouco sofisticada, é realmente uma humilhação para eles.”

Esta nem é a primeira falha de segurança do Mythos. A existência do modelo foi acidentalmente revelada através de um “tesouro de dados não seguros” no próprio site da Anthropic antes do lançamento. Agora foi acessado através de uma vulnerabilidade que qualquer estagiário de segurança poderia ter previsto. A perfeição pode ser impossível, mas para uma empresa que se autoproclamou a vanguarda da segurança de IA, isso é menos um tropeço e mais uma queda de cara.

Modelo de IA super seguro da Anthropic é hackeado por jogo de adivinhação

Notícias na sua caixa.