Grok 在政府 AI 采用中惨败，证明连官僚都有标准

关于埃隆·马斯克那款“追求真相”的 AI 聊天机器人 Grok，有一个残酷的事实：它并不怎么好，而且用的人也不多。这是路透社最新报道得出的结论，该报道发现，Grok 在美国政府去年 AI 使用情况的联邦记录中几乎没怎么出现。这并非 xAI 这款招牌聊天机器人陷入困境的唯一迹象，尽管马斯克将其置于可能成为史上最大 IPO 的核心。

路透社审查了 400 多个提及具体供应商的政府 AI 使用案例。Grok 或 xAI 仅出现在三个案例中——每个都是文档起草或社交媒体管理这类基本用途，而且总是与微软和 OpenAI 等竞争对手并列。相比之下，OpenAI 的模型出现在 230 多个案例中，而谷歌和 Anthropic 各出现数十次。在另一个用户数量较少的更雄心勃勃的政府 AI 项目数据库中也出现了类似模式。Grok 仅出现三次：两次是在选举援助委员会的日常行政任务中，一次是在劳伦斯利弗莫尔国家实验室的能源部试点项目中，用于文档摘要和一般研究。路透社发现，涉及微软和 OpenAI 的条目有 140 个，而简要审查发现 Anthropic 至少有 10 个条目，谷歌的 Gemini 则有数十个。

这些列表只是衡量政府采用情况的不完整且零散的指标。许多其他案例没有列出具体供应商，而且对于什么算作 AI 也没有统一定义。这些数据也没有涵盖情报机构或五角大楼——xAI 去年在那里获得了一份 2 亿美元的合同，最近在 Anthropic 被列入黑名单后获准在机密网络上运行。尽管如此，这对 Grok 来说并不乐观。它的出现频率远低于竞争对手，而且即使出现，也主要是用于基本的行政工作——这几乎配不上马斯克多年来吹嘘的世界级前沿模型。

与路透社交谈过的人表示，解释很简单：Grok 不如竞争对手好。一位匿名的五角大楼消息人士说，它“根本不是最好的模型”，并补充说那里的工作人员倾向于使用 Gemini 或 Claude。对 AI 模型进行排名的公共排行榜支持了这一观点。Anthropic、谷歌和 OpenAI 占据榜首，而 Grok 很少进入前十，除了偶尔在图像或视频类别中。这对马斯克来说很尴尬，对今年早些时候吸收了 xAI 的 SpaceX 来说更是如此。这家火箭企业的 IPO 文件显示，该公司已将 AI——特别是 Grok——置于其向投资者推销的核心。SpaceX 声称已经确定了“人类历史上最大的可操作总目标市场”：一个惊人的 28.5 万亿美元的机会，不过遗憾的是，它没有提供实现这一目标的时间表。几乎所有这些估值都来自 AI，特别是企业 AI，而不是火箭或卫星。

路透社指出，Grok 在政府机构的表现可能暗示它在其他工作场所的表现。作为 xAI 进军企业客户的一部分，马斯克据报道强迫银行购买 Grok 订阅，如果他们想参与 SpaceX 的 IPO——但如果他们没有得到物有所值，这些交易可能只是短期解决方案。好像其沉闷的表现还不够尴尬，马斯克最近承认 xAI 使用了 OpenAI 的模型来帮助训练和改进 Grok。这个过程被称为蒸馏，在公司使用自己的模型时是标准的，但当涉及使用竞争对手的系统时则更具争议性。Grok 甚至无法击败它正在训练的模型。

在其面向公众的消费者版本中，Grok 故意令人不快。马斯克将这款聊天机器人标榜为比 ChatGPT 等工具更少偏见和审查的替代品，但这转化为一个证据标准松散、对马斯克有不健康痴迷、以及有冒犯性、阴谋论和色情输出长期记录的产品。甚至

Grok 在政府 AI 采用中惨败，证明连官僚都有标准

新闻直达您的邮箱。