二月,本记者在伦敦一场反AI游行中捡到一张传单。上面写着,不知是否刻意致敬《南方公园》的内裤精灵:“第一步:培育数字超级大脑。第二步:?第三步:?”这张由共同组织抗议的活动组织Pause AI制作的传单,结尾恳求道:“暂停AI,直到我们搞明白第二步到底是什么。”

对于不明真相的群众,这个梗出自1998年《南方公园》的一集,其中肯尼、凯尔、卡特曼和斯坦发现了一群精灵,它们的商业计划是“第一阶段:收集内裤。第二阶段:?第三阶段:利润。”此后,这个梗被用来讽刺从初创策略到埃隆·马斯克火星任务融资计划的一切。眼下,它完美捕捉了AI的现状:公司们已经建好了技术(第一步),并承诺了变革(第三步)。如何从第一步走到第三步,仍然是一个巨大的问号。

Pause AI认为第二步必须涉及监管,尽管具体形式和执行者尚存争议。与此同时,AI支持者坚信第三步就是救赎,往往直接跳过中间环节。OpenAI首席科学家Jakub Pachocki向我描述AI为“经济变革性技术”,阳光灿烂的高地似乎就在地平线上。但每个人都在走不同的路,谁能成功谁也说不准。

每一个关于未来的宏大宣言,都伴随着一个令人清醒的现实检验。考虑最近的两项研究。一项来自Anthropic,预测了LLM将影响最大的职业——经理、建筑师和媒体人士应做好准备;园丁、建筑工人和酒店从业者则影响不大。但这些预测其实只是基于LLM似乎擅长的东西的猜测,而非它们在工作中的实际表现。

另一项二月的研究由AI招聘初创公司Mercor的研究人员进行,测试了由OpenAI、Anthropic和Google DeepMind的顶级模型驱动的几个AI代理,完成人类银行家、顾问和律师日常执行的480项工作任务。每个代理都未能完成大部分职责。

为何存在如此大的分歧?首先,考虑谁在做出声明以及原因——Anthropic有自己的利益。大多数告诉我们大事即将发生的人,依据是AI编码工具改进的速度。但并非所有任务都能通过编码解决。其他研究发现LLM在战略判断方面表现糟糕。

此外,工具并非被投入洁净室。它们必须在被人类和现有工作流程污染的地方工作,有时添加AI反而会让事情更糟。当然,也许这些工作流程需要被拆解并围绕新技术重塑,但这需要时间和勇气。

那个大洞?它正好在第二步该在的位置。对于即将发生什么以及如何发生缺乏共识,造成了一个信息真空,被每周最新的疯狂声明填补,证据见鬼去吧。我们与现实理解如此脱节,以至于一条社交媒体帖子就能撼动市场。

我们需要更少的猜测和更多的证据。这需要模型制造商的透明度、研究人员与企业之间的协调,以及在现实世界中评估这项技术的新方法。科技行业——以及随之而来的全球经济——依赖于AI将带来变革的承诺。但这还不是一个确定的赌注。下次你听到大胆声明时,记住:大多数企业仍在琢磨怎么处理它们的内裤。