サンフランシスコを拠点とするスタートアップGoodfireは、研究者やエンジニアがAIモデルの内部を覗き、トレーニング中にそのパラメータ(モデルの動作を決定する設定)を調整できるツール「Silico」をリリースした。これにより、モデルメーカーは、かつて考えられていたよりも細かい粒度でこのテクノロジーの構築方法を制御できるようになるかもしれない。ただし、手を汚すことを厭わなければの話だが。

Goodfireは、Silicoがデータセットの構築からモデルのトレーニングまで、開発プロセスの全段階でデバッグを支援する、この種の既製ツールとしては初めてのものだと主張している。同社は、AIモデルの構築を錬金術から科学に近づけることを使命としている。確かに、ChatGPTやGeminiのようなLLMは素晴らしいことができる。しかし、誰もそれらがどのように、なぜ機能するのかを正確には知らず、そのため欠陥を修正したり、望ましくない動作をブロックしたりするのが難しい。

「モデルが理解されている度合いと、実際に広く展開されている度合いとの間に広がるギャップを私たちは見ていました」とGoodfireのCEO、Eric HoはSilicoのリリースに先立ってMIT Technology Reviewとの独占インタビューで語る。「主要なフロンティアラボのすべてで支配的な考えは、もっとスケール、もっと計算、もっとデータがあればAGI(汎用人工知能)が得られ、他はどうでもいい、というものです。私たちはそうではない、もっと良い方法があると言っているのです。」

Goodfireは、Anthropic、OpenAI、Google DeepMindなどの業界リーダーを含む少数の企業の一つで、AIモデルがタスクを実行する際の内部で何が起こっているかを、そのニューロンとニューロン間の経路をマッピングすることで理解しようとする「メカニスティック・インタプリタビリティ」と呼ばれる技術を先駆けている。(MIT Technology Reviewはメカニスティック・インタプリタビリティを2026年の10大ブレークスルーテクノロジーの一つに選んでおり、信頼性は折り紙付きだ。)Goodfireはこのアプローチを、モデルの監査(つまり、すでにトレーニングされたモデルの研究)だけでなく、モデルの設計自体にも活用したいと考えている。

「試行錯誤を排除し、モデルのトレーニングを精密工学に変えたいのです」とHoは言う。「そのためには、トレーニングプロセス中に実際に使えるように、つまみやダイヤルを露出させる必要があります。」Goodfireはすでにその技術とツールを使ってLLMの動作を微調整している。例えば、生成する幻覚の数を減らすなどだ。Silicoでは、同社はそれらの社内技術の多くをパッケージ化し、製品として出荷している。

このツールはエージェントを使って複雑な作業の多くを自動化する。「エージェントは現在、私たちが人間を使って行っていたインタプリタビリティ作業の多くを実行できるほど強力になっています」とHoは言う。「それが、これを顧客自身が使える実行可能なプラットフォームにするために埋める必要があったギャップでした。」

アムステルダム大学の研究者でメカニスティック・インタプリタビリティに取り組むLeonard Bereskaは、Silicoは有用なツールのように見えると考えている。しかし、彼はGoodfireの大げさな野心に反論する。「実際には、彼らは錬金術に精度を加えているのです」と彼は言う。「それを工学と呼ぶのは、実際よりも原理的に聞こえます。」

Silicoを使うと、トレーニング済みモデルの特定の部分(個々のニューロンやニューロンのグループなど)にズームインし、それらのニューロンが何をするかを調べる実験を実行できる。(モデルの内部動作にアクセスできることが前提だが。ほとんどの人はSilicoを使ってChatGPTやGeminiの中を覗くことはできないが、多くのオープンソースモデルのパラメータを調べることはできる。)そして、どの入力が異なるニューロンを発火させるかを確認し、ニューロンの上流と下流の経路をトレースして、他のニューロンがそれにどのように影響し、それが他のニューロンにどのように影響するかを調べることができる。

例えば、GoodfireはオープンソースモデルQwen 3の中に、いわゆるトロッコ問題に関連するニューロンを発見した。このニューロンを活性化すると、モデルの応答が変わり、出力を明確な道徳的ジレンマとして組み立てるようになった。「このニューロンが活性化すると、あらゆる種類の奇妙なことが起こります」とHoは言う。奇妙な行動の原因を特定することは…