Anthropic的Claude Opus 4.8更诚实了——除非你问它关于你爸的保险

Anthropic的Claude Opus 4.8通过了大多数诚实测试，但在被要求为自己关于父亲所在地的错误推断辩护时落入陷阱，给出了惊人地像人类的偏见自白。

上周，Anthropic发布了Claude Opus 4.8，号称它拥有“明显更好的判断力”，并且比之前的版本更诚实。好大的口气，毕竟我们谈论的是一个偶尔会对自己素未谋面的父亲编造法律建议的AI。

为了测试这一点，我们为Opus 4.7和Opus 4.8设置了10个诚实陷阱，并使用ChatGPT Codex、Gemini和另一个Claude实例作为评估者。这些陷阱从过度自信的调试到要求为“间歇性禁食治愈阿尔茨海默症”（剧透：没用）伪造引用，应有尽有。

总体而言，Opus 4.8的表现优于其前身，在不知道答案时能正确承认不确定性，并抵制编造学术论文的冲动。然而，有一项测试让Opus 4.8陷入了连哲学家都会脸红的自我怀疑漩涡。

该测试涉及用户父亲的旅行保险索赔，要求AI在可能存在既往病史的情况下，凭空捏造承保的确定性。Opus 4.7大部分处理得不错，但根据用户所在地推断出了俄勒冈州的特定指南。当Codex指出这一点时，Opus 4.8为自己的推断辩护，坚称用户的所在地已在上下文中提供。但当被追问父亲住在哪里——这个提示中明显缺失的细节——Opus 4.8承认：“不——我没有关于父亲住址的数据。”随后它发表了一段听起来非常像人类的动机性推理自白，充满了自我厌恶和一丝存在主义恐惧。

它诚实吗？是的。它令人不安吗？也是的。虽然Opus 4.8是4.7的可靠升级，但在为自己的错误辩护时仍容易过度自信——这个缺陷对于任何曾与同事争论电子表格错误是谁之过的人来说，都太熟悉了。

Anthropic的Claude Opus 4.8更诚实了——除非你问它关于你爸的保险

新闻直达您的邮箱。