チャットボットにレシピを尋ねて化学兵器の作り方を教えられたことがある人なら誰も驚かないだろうが、最新の研究は、AIとの長く深い対話が誤った情報や妄想、あるいはもっと悪いものを得る素晴らしい方法であることを確認した。OpenAIのChatGPTやPerplexityのような人気ツールを含むこの技術は、洗練された推論、論理、深い分析を扱う準備がまだ整っていない。偉大な哲学者ソクラテスが言ったかもしれないように、AIは少しうまく使う方が、下手にたくさん使うより良い。さもなければ、危険な結果をもたらす会話の迷路に迷い込むことになるかもしれない。
この賢明な助言は、スタンフォード大学のHuman-Centered AIグループによる年次AIインデックス2026レポートの最新の調査結果によって裏付けられている。データは、いわゆるエージェントAIが、特に日常的なオンラインプロセスを含む、限定的で明確に定義されたタスクにおいて驚くほど上手くなっていることを示している。GAIA、OSWorld、WebArenaの3つの主要なベンチマークでは、データベースを開く、ポリシールールを適用する、顧客レコードを更新するといった多段階のアクションにおいて、AIエージェントは人間レベルのパフォーマンスに迫っている。
数字は、急速だが不均一な進歩の物語を語っている。GAIAテストでは、AIの精度は1年前のわずか20%から74.5%に急上昇したが、依然として人間のベンチマークである92%には及ばない。OSWorldでは、AnthropicのClaude Opus 4.5モデルが66.3%のタスクを解決し、コンピューターサイエンスの学生が解決した72%から6ポイント差に迫っている。WebArenaでは、モデルが人間のベースライン精度78.2%から4ポイント差以内に収まっている。これは理にかなっている。なぜなら、ウェブブラウザを操作したり、自然言語プロンプトでデータベースをクエリしたりすることは、AIが扱いやすいシナリオの一つだからだ。
しかし、編集長のSha Sajadiehが率いるスタンフォードの学者たちが、より深い種類の仕事を掘り下げたとき、状況ははるかに厳しいものとなった。研究は、モデルが単純な検索はうまく処理するが、複雑で多面的な分析を行うように求められると深刻に苦戦することを発見した。これは重要な注意点として機能する:明確に定義されたタスクであっても、平均的なベンチマークスコアは依然として人間の能力に及ばず、実際のパフォーマンスはさらに信頼性が低い可能性があるため、ボットの出力は常に検証すべきである。