グロック、政府AI導入で大失敗　官僚でさえ基準を持つことを証明

イーロン・マスクの「真実追求型」AIチャットボット「グロック」には厳しい真実がある。それは、あまり優れておらず、多くの人が使っていないということだ。これはロイターの新たな報道から得られた教訓で、連邦政府が昨年AIをどのように利用したかの記録に、グロックがほとんど登場しないことが判明した。xAIの看板チャットボットが、マスクが史上最大のIPOの中核に据えているにもかかわらず、苦境にあることを示す兆候はこれだけではない。

ロイターは、特定のベンダーが指名された400以上の政府AI利用事例を調査した。グロックまたはxAIが登場したのはわずか3件で、いずれも文書作成やソーシャルメディア管理といった基本的な用途であり、常にマイクロソフトやOpenAIなどの競合他社と並んでいた。比較すると、OpenAIのモデルは230以上の事例に登場し、GoogleとAnthropicはそれぞれ数十回登場した。より野心的な政府AIプロジェクトの別のデータベースでも同様の傾向が見られ、ユーザー数は少なかった。グロックはわずか3回登場した。選挙支援委員会での日常的な管理業務に2回、ローレンス・リバモア国立研究所でのエネルギー省のパイロットプロジェクトで文書要約と一般調査に1回だ。ロイターは、マイクロソフトとOpenAIが関与する140件のエントリーを発見し、簡単な調査ではAnthropicが少なくとも10件、GoogleのGeminiが数十件見つかった。

これらのリストは、政府導入の不完全で断片的な尺度に過ぎない。特定のベンダーなしで記載された事例も多く、AIと見なされるものの普遍的な定義はない。また、データは諜報機関や国防総省をカバーしておらず、xAIは昨年2億ドルの契約を獲得し、最近Anthropicのブラックリスト入り後、機密ネットワークでの運用が承認された。それでも、グロックにとっては良い状況ではない。競合他社に比べて登場頻度がはるかに低く、登場しても主に基本的な管理業務であり、マスクが何年も自慢してきた世界最先端のフロンティアモデルにはとてもふさわしくない。

ロイターに語った関係者によると、説明は単純で、グロックは競合他社ほど優れていないという。国防総省の情報筋は「単に最高のモデルではない」と述べ、職員はGeminiやClaudeを好む傾向があると付け加えた。AIモデルをランク付けする公開リーダーボードもこの見解を裏付けている。Anthropic、Google、OpenAIが上位を独占し、グロックは時折画像や動画のカテゴリーを除いてトップ10に入ることはほとんどない。これはマスクにとって気まずく、今年初めにxAIを吸収したSpaceXにとってはさらに気まずい。ロケットベンチャーのIPO申請書類は、同社がAI、特にグロックを投資家への売り込みの中核に据えていることを示している。SpaceXは「人類史上最大の行動可能な総アドレス可能市場」を特定したと主張し、驚異的な28.5兆ドルの機会があるとしているが、残念ながらそこに到達するためのスケジュールは示されていない。この推定価値のほぼすべては、ロケットや衛星ではなく、AI、特にエンタープライズAIから来ている。

ロイターは、政府機関でのグロックのパフォーマンスは、他の職場でも同様の結果を示唆する可能性があると指摘する。xAIのエンタープライズ顧客獲得の一環として、マスクはSpaceXのIPOに参加したい銀行にグロックのサブスクリプション購入を強要したと報じられているが、投資に見合った価値が得られなければ、これらの取引は短期的な解決策に過ぎないかもしれない。気まずいパフォーマンスだけでも十分なのに、マスクは最近、xAIがOpenAIのモデルを使用してグロックのトレーニングと改善を支援したことを認めた。蒸留として知られるこのプロセスは、自社モデルを使用する場合は標準的だが、競合他社のシステムを使用する場合ははるかに議論を呼ぶ。グロックは、トレーニングに使用しているモデルにすら勝てないのだ。

公開向けの消費者版では、グロックは意図的に不快に作られている。マスクはこのチャットボットをChatGPTのようなツールよりも偏りが少なく検閲されていない代替品と位置づけているが、それは緩い証拠基準、マスクに対する不健康な執着、そして攻撃的で陰謀論的、性的なアウトプットの長い実績を持つ製品に反映されている。

グロック、政府AI導入で大失敗 官僚でさえ基準を持つことを証明

ニュースをメールで。

グロック、政府AI導入で大失敗　官僚でさえ基準を持つことを証明