在一项会让任何向聊天机器人要食谱却收到化学武器制作说明的人毫不惊讶的启示中,新研究证实,与AI进行长时间深度互动是获取错误信息、产生错觉甚至更糟结果的绝佳方式。这项技术,包括OpenAI的ChatGPT和Perplexity等流行工具,根本还没准备好处理复杂的推理、逻辑或深度分析。正如伟大的哲学家苏格拉底可能会说的那样:用AI做点小事总比用它搞砸大事要好,免得你陷入可能带来危险结果的对话兔子洞。

斯坦福大学以人为本AI研究小组在其《2026年度AI指数报告》中的最新发现印证了这一明智建议。数据显示,所谓的代理AI在有限、定义明确的任务上表现惊人地好,特别是那些涉及常规在线流程的任务。在GAIA、OSWorld和WebArena这三个关键基准测试中,AI代理在打开数据库、应用政策规则和更新客户记录等多步骤操作上正接近人类水平的表现。

数字讲述了一个快速但不均衡的进展故事。在GAIA测试中,AI准确率从一年前的仅20%飙升至74.5%,尽管仍落后于92%的人类基准。在OSWorld上,Anthropic的Claude Opus 4.5模型解决了66.3%的任务,与计算机科学学生解决的72%仅相差6个百分点。WebArena显示模型现在与78.2%的人类基准准确率相差不到4个百分点。这很合理,因为通过自然语言提示操作网络浏览器或查询数据库是AI较容易处理的场景。

然而,当斯坦福学者们在主编Sha Sajadieh的带领下深入研究更深层次的工作时,情况就远不那么令人鼓舞了。研究发现,模型能很好地处理简单的查找,但在被要求执行复杂、多方面的分析时却举步维艰。这提供了一个关键提醒:即使是定义明确的任务,你也应该始终验证机器人的输出,因为平均基准分数仍然低于人类能力,而实际表现可能更不可靠。