总部位于旧金山的初创公司Goodfire发布了一款名为Silico的工具,让研究人员和工程师能够窥探AI模型内部,并在训练过程中调整其参数——即决定模型行为的设置。这或许能让模型制造者比以往想象的更精细地控制这项技术的构建方式,前提是他们不介意弄脏双手。
Goodfire声称Silico是首款现成的此类工具,能帮助开发者调试从构建数据集到训练模型的整个开发过程。该公司表示,其使命是让构建AI模型不再像炼金术,而更像一门科学。当然,像ChatGPT和Gemini这样的大语言模型能做很多了不起的事。但没人确切知道它们是如何或为何工作的,这让人难以修复它们的缺陷或阻止不良行为。
“我们看到模型被理解的程度与其被广泛部署的程度之间的差距越来越大,”Goodfire的CEO Eric Ho在Silico发布前独家接受MIT Technology Review采访时表示,“我认为如今每个主要前沿实验室的主流想法是,你只需要更大的规模、更多的算力、更多的数据,就能实现AGI(通用人工智能),其他都不重要。而我们在说,不,还有更好的方法。”
Goodfire是少数几家开创“机制可解释性”技术的公司之一,包括行业领导者Anthropic、OpenAI和Google DeepMind。该技术旨在通过映射神经元及其之间的通路,理解AI模型在执行任务时内部发生了什么。(MIT Technology Review将机制可解释性评为2026年十大突破性技术之一,所以你知道它是正经的。)Goodfire希望用这种方法不仅审计模型——即研究那些已经训练好的模型——而且从一开始就帮助设计它们。
“我们想消除试错,把训练模型变成精密工程,”Ho说,“这意味着暴露那些旋钮和刻度盘,让你在训练过程中就能实际使用它们。”Goodfire已经用其技术和方法调整了大语言模型的行为——例如,减少它们产生的幻觉数量。现在,通过Silico,该公司将许多内部技术打包成产品。
该工具使用智能体来自动化大部分复杂工作。“智能体现在足够强大,能完成很多以前由人类完成的解释性工作,”Ho说,“这曾是让客户能自己使用这个可行平台之前需要跨越的鸿沟。”
阿姆斯特丹大学的研究员Leonard Bereska曾从事机制可解释性研究,他认为Silico看起来是个有用的工具。但他反驳了Goodfire更宏大的抱负。“实际上,他们只是在给炼金术增加精度,”他说,“称之为工程学让它听起来比实际更有原则。”
Silico让你能放大训练好的模型的特定部分,比如单个神经元或神经元群,并运行实验看看这些神经元做什么。(假设你能访问模型的内部结构。大多数人无法用Silico在ChatGPT或Gemini内部翻找,但你可以用它查看许多开源模型内部的参数。)然后你可以检查什么输入让不同神经元激活,并追踪神经元上游和下游的通路,看看其他神经元如何影响它,以及它又如何影响其他神经元。
例如,Goodfire在开源模型Qwen 3中发现了一个与所谓“电车难题”相关的神经元。激活这个神经元会改变模型的响应,使其输出明确表现为道德困境。“当这个神经元活跃时,各种奇怪的事情都会发生,”Ho说。精确定位怪异行为的源头……