2月、ロンドンで行われた反AIデモで、記者はあるチラシを拾った。そこには、サウスパークのパンツ泥棒へのオマージュかどうかはともかく、こう書かれていた。「ステップ1:デジタル超知能を育てる。ステップ2:? ステップ3:?」。抗議活動を共同主催した活動家グループ「Pause AI」が作成したこのチラシは、こう訴えて締めくくられていた。「ステップ2が一体何なのか分かるまで、AIを一時停止せよ」。
知らない人のために説明すると、これは1998年のサウスパークのエピソードに登場するノームたちのビジネスプラン「フェーズ1:パンツを集める。フェーズ2:? フェーズ3:利益」への言及だ。このミームはその後、スタートアップ戦略からイーロン・マスクの火星ミッション資金計画まで、あらゆるものを風刺するために使われてきた。今、このミームはAIの現状を完璧に捉えている。企業はテクノロジーを構築し(ステップ1)、変革を約束した(ステップ3)。しかし、そこに至る方法は巨大なクエスチョンマークのままである。
Pause AIは、ステップ2には規制が含まれなければならないと考えているが、その具体的な内容と誰が執行するかは議論の余地がある。一方、AI推進派はステップ3が救済であると確信しており、中間部分をすっ飛ばす傾向がある。OpenAIのチーフサイエンティスト、ヤクブ・パホツキは、AIを「経済を変革するテクノロジー」と私に語り、明るい未来がすぐそこにあるかのように見えた。しかし、誰もが異なるルートを取っており、誰が成功するかは誰にも分からない。
未来に関する大げさな主張があるたびに、現実を突きつける冷静なチェックが存在する。最近の2つの研究を考えてみよう。1つはAnthropicによるもので、LLMが最も影響を与える職業を予測している。マネージャー、建築家、メディア関係者は変化に備えるべきだが、庭師、建設作業員、接客業の人々はそれほど影響を受けないという。しかし、これらの予測は実際には、LLMが何を得意としているかに基づく単なる推測に過ぎず、職場での実際のパフォーマンスに基づくものではない。
2月に発表されたもう1つの研究では、AI採用スタートアップのMercorの研究者が、OpenAI、Anthropic、Google DeepMindのトップモデルを搭載した複数のAIエージェントを、人間の銀行員、コンサルタント、弁護士が日常的に行う480の職務タスクでテストした。どのエージェントも、ほとんどの業務を完了できなかった。
なぜこれほど意見が分かれるのか? まず、誰が主張しているのか、そしてその理由を考えてみよう。Anthropicには利害関係がある。何か大きなことが起ころうとしていると語る人々のほとんどは、AIコーディングツールの改善速度に基づいて主張している。しかし、すべてのタスクがコーディングで解決できるわけではない。他の研究では、LLMは戦略的な判断が苦手であることが分かっている。
さらに、ツールはクリーンルームに導入されるわけではない。人間や既存のワークフローで汚染された場所で機能しなければならず、AIを追加することで状況が悪化することもある。確かに、それらのワークフローを破壊して新しいテクノロジーに合わせて再構築する必要があるかもしれないが、それには時間と勇気が必要だ。
あの大きな穴? それはまさにステップ2があるべき場所だ。何が起ころうとしているのか、どのようにして起こるのかについての合意が欠如しているため、情報の空白が生まれ、最新の突飛な主張が証拠もなく埋めている。私たちは現実の理解からあまりにも乖離しており、たった一つのソーシャルメディアの投稿で市場が揺れる。
私たちには、より多くの推測ではなく、より多くの証拠が必要だ。そのためには、モデルメーカーの透明性、研究者と企業の連携、そして現実世界でこのテクノロジーを評価する新しい方法が必要である。テクノロジー業界、そしてそれに伴う世界経済は、AIが変革をもたらすという約束に依存している。しかし、それはまだ確実な賭けではない。次に大胆な主張を聞いたときは、思い出してほしい。ほとんどの企業は、自分のパンツをどうするかまだ考えている最中なのだ。