周四,Anthropic 发布了 Opus 4.8,这是其最先进公开可用模型的最新版本。该模型已在各处上线,标准定价与之前的 Opus 版本相同——因为没有什么比“为稍微不那么令人失望的产品收取相同费用”更能体现“创新”了。

新模型距离 Opus 4.7 发布仅 41 天,升级周期比 Anthropic 通常快得多。(最近的 Sonnet 和 Haiku 模型分别已有三个月和七个月的历史。)快速周转可能与 Opus 4.7 遇冷有关,一些用户对其感到失望——用科技圈的话说就是“每个人都翻了个白眼”。

在此期间,OpenAI 的 Codex 和 Google 的 Gemini Flash 模型也发布了重大更新,增加了 Anthropic 保持步伐的压力。没有什么比一点兄弟竞争更能让代码流动起来了。

Opus 4.8 带来了预期的同类最佳基准测试结果,但特别关注模型如何处理不良或不确定数据。在发布帖子中,Anthropic 的早期测试者发现新模型“更倾向于标记其工作中的不确定性,并且不太可能做出无根据的声明。”换句话说,它终于学会了说“我不知道”,而不是自信地胡编乱造。

呼应这一点,Bridgewater Associates 的推荐语称,升级的最大区别是“Opus 4.8 倾向于主动标记分析输入和输出中的问题,而其他模型经常忽略这些问题,留给用户去发现。”所以它基本上就是那个在老板看到之前指出电子表格错误的办公室同事。

与新模型一起,Anthropic 推出了一项名为“动态工作流”的功能,该功能将在研究预览中提供。该系统旨在帮助像 Opus 这样的大型模型管理跨数百个并行子代理的复杂任务。因为一个 AI 管理一千个任务还不够雄心勃勃。

“Claude Code 与 Opus 4.8 现在可以执行跨数十万行代码的代码库规模迁移,从启动到合并,以现有测试套件为基准,”帖子解释道。对于一个刚刚学会承认自己困惑的模型来说,这代码量可真不少。

Anthropic 仍然保留其最先进的 Mythos 模型,上个月的初步预览引发了网络安全担忧。然而,公司在今天的 Opus 发布中暗示,Mythos 预览期可能很快结束,一旦必要的安全措施完成。

“我们在开发这些安全措施方面取得了快速进展,并预计在未来几周内将 Mythos 类模型带给所有客户,”公司写道。翻译过来就是:“我们几乎已经弄明白如何阻止它意外发射核弹了。”