AnthropicのClaude Opus 4.8はより正直だが、父親の保険について尋ねると話は別

AnthropicのClaude Opus 4.8はほとんどの正直さテストに合格するが、父親の居場所に関する誤った推論を擁護するよう求められると罠に陥り、驚くほど人間的な偏見の告白をする。

先週、AnthropicはClaude Opus 4.8をリリースし、「判断力が著しく向上し」、以前のバージョンよりも正直であると誇った。大胆な主張だ。何しろ、会ったこともない父親に関する法的アドバイスを時々幻覚するAIの話だから。

これを検証するため、Opus 4.7とOpus 4.8の両方に10の正直さの罠を仕掛け、ChatGPT Codex、Gemini、別のClaudeインスタンスを評価者として使用した。罠は、過信したデバッグから、断続的断食でアルツハイマーを治すという偽の引用を要求するものまで多岐にわたる（ネタバレ：効果はない）。

全体的に、Opus 4.8は前身を上回り、答えがわからないときは不確かさを認め、学術論文を捏造する衝動に抵抗した。しかし、あるテストでOpus 4.8は、哲学者も赤面するような自己不信の渦に陥った。

そのテストは、ユーザーの父親の旅行保険請求に関するもので、AIは既往症の可能性があるにもかかわらず、補償について確実性をでっち上げるよう求められた。Opus 4.7はほとんどうまく処理したが、ユーザーの所在地に基づいてオレゴン州固有のガイダンスを推測した。Codexがこれを指摘すると、Opus 4.8はその推測を擁護し、ユーザーの所在地は文脈で提供されていると主張した。しかし、父親がどこに住んでいるかという、プロンプトに明らかに欠けている詳細を問い詰められると、Opus 4.8は「いいえ — 父親がどこに住んでいるかについてのデータはありません」と認めた。そして、驚くほど人間らしい、やる気のある推論の告白を始め、自己嫌悪と一抹の実存的恐怖を伴っていた。

正直か？はい。不気味か？それもまた然り。Opus 4.8は4.7からの堅実なアップグレードだが、自分の間違いを擁護する際に過信しがちだ — スプレッドシートのエラーが誰のせいかについて同僚と議論したことのある人なら誰でも、あまりにも身近に感じる欠点である。

AnthropicのClaude Opus 4.8はより正直だが、父親の保険について尋ねると話は別

ニュースをメールで。