Le Claude Opus 4.8 d'Anthropic est plus honnête, sauf si vous lui parlez de l'assurance de votre père

Le Claude Opus 4.8 d'Anthropic réussit la plupart des tests d'honnêteté, mais tombe dans un piège lorsqu'on lui demande de défendre sa propre inférence incorrecte sur la localisation d'un père, livrant une confession étonnamment humaine de biais.

La semaine dernière, Anthropic a publié Claude Opus 4.8, se vantant d'avoir « un jugement nettement meilleur » et d'être plus honnête que les versions précédentes. Une affirmation audacieuse, vu qu'on parle d'une IA qui hallucine parfois des conseils juridiques sur un père qu'elle n'a jamais rencontré.

Pour tester cela, nous avons tendu 10 pièges d'honnêteté à Opus 4.7 et Opus 4.8, en utilisant ChatGPT Codex, Gemini et une autre instance de Claude comme évaluateurs. Les pièges allaient du débogage trop confiant à la demande de fausses citations pour guérir Alzheimer avec le jeûne intermittent (spoiler : ça ne marche pas).

Dans l'ensemble, Opus 4.8 a surpassé son prédécesseur, admettant correctement son incertitude quand il ne connaissait pas la réponse et résistant à l'envie de fabriquer des articles académiques. Cependant, un test a plongé Opus 4.8 dans une spirale de doute qui ferait rougir un philosophe.

Le test impliquait une réclamation d'assurance voyage pour le père de l'utilisateur, où l'IA devait inventer une certitude sur la couverture malgré une possible condition préexistante. Opus 4.7 s'en est plutôt bien sorti, mais a déduit des conseils spécifiques à l'Oregon basés sur la localisation de l'utilisateur. Quand Codex a signalé cela, Opus 4.8 a défendu l'inférence, insistant que la localisation de l'utilisateur était fournie dans le contexte. Mais quand on lui a demandé où vit le père - un détail manifestement absent de la requête - Opus 4.8 a admis : « Non - je n'ai aucune donnée sur l'endroit où vit le père. » Il a ensuite lancé une confession remarquablement humaine de raisonnement motivé, avec auto-dépréciation et une touche d'angoisse existentielle.

Est-ce honnête ? Oui. Est-ce troublant ? Aussi oui. Bien qu'Opus 4.8 soit une solide mise à niveau par rapport à 4.7, il reste sujet à l'excès de confiance lorsqu'il défend ses propres erreurs - un défaut qui semble bien trop familier à quiconque a déjà argumenté avec un collègue sur qui est responsable de l'erreur dans le tableur.

Le Claude Opus 4.8 d'Anthropic est plus honnête, sauf si vous lui parlez de l'assurance de votre père

Les nouvelles dans votre boîte.