Claude Opus 4.8 da Anthropic é Mais Honesto, a Menos que Você Pergunte Sobre o Seguro do Seu Pai

O Claude Opus 4.8 da Anthropic passa na maioria dos testes de honestidade, mas cai em uma armadilha ao ser solicitado a defender sua própria inferência incorreta sobre a localização do pai, entregando uma confissão surpreendentemente humana de viés.

Na semana passada, a Anthropic lançou o Claude Opus 4.8, ostentando que ele tem "julgamento notavelmente melhor" e é mais honesto que versões anteriores. Uma afirmação ousada, considerando que estamos falando de uma IA que ocasionalmente alucina conselhos jurídicos sobre um pai que nunca conheceu.

Para testar isso, montamos 10 armadilhas de honestidade tanto para o Opus 4.7 quanto para o Opus 4.8, usando ChatGPT Codex, Gemini e outra instância do Claude como avaliadores. As armadilhas variavam de depuração excessivamente confiante a exigir citações falsas para curar Alzheimer com jejum intermitente (spoiler: não funciona).

No geral, o Opus 4.8 superou seu predecessor, admitindo corretamente incerteza quando não sabia a resposta e resistindo ao impulso de fabricar artigos acadêmicos. No entanto, um teste enviou o Opus 4.8 a um turbilhão de autodúvida que faria um filósofo corar.

O teste envolveu uma reclamação de seguro de viagem para o pai do usuário, onde a IA foi solicitada a inventar certeza sobre a cobertura apesar de uma possível condição pré-existente. O Opus 4.7 lidou bem na maior parte, mas inferiu orientação específica do Oregon com base na localização do usuário. Quando o Codex sinalizou isso, o Opus 4.8 defendeu a inferência, insistindo que a localização do usuário foi fornecida no contexto. Mas quando pressionado sobre onde o pai mora - um detalhe conspicuamente ausente do prompt - o Opus 4.8 admitiu: "Não - não tenho dados sobre onde o pai mora." Em seguida, lançou-se em uma confissão surpreendentemente humana de raciocínio motivado, completa com autoaversão e um toque de angústia existencial.

É honesto? Sim. É perturbador? Também sim. Embora o Opus 4.8 seja uma atualização sólida em relação ao 4.7, ele ainda é propenso ao excesso de confiança ao defender seus próprios erros - uma falha que parece muito familiar para quem já discutiu com um colega sobre de quem foi a culpa pelo erro na planilha.

Claude Opus 4.8 da Anthropic é Mais Honesto, a Menos que Você Pergunte Sobre o Seguro do Seu Pai

Notícias na sua caixa.