Anthropicの超安全AIモデル、推測ゲームでハッキングされる

Anthropicが「危険すぎる」と公言していたAIモデルMythosが、推測と内部情報による稚拙な方法で不正アクセスされ、同社の誇大広告が屈辱的な結果を招いた。

Anthropic、数週間にわたって自社のClaude Mythosモデルは一般公開するには危険すぎると言い続けてきた会社が、貴重な教訓を学んだ。もしAIがハッキング不可能だと自慢すれば、誰かがそれを挑戦と受け止めるものだ。Bloombergによると、「少数の不正ユーザー」が、Anthropicがモデルを選ばれたテスターのグループと共有すると発表したその日から、静かにMythosを楽しんでいたという。同社は調査中だと述べているが、これはまるで鍵屋が自分の玄関のドアが段ボール製だと気づくようなものだ。

技術的な観点から見ると、この侵害はほとんど愛らしいほどローテクだ。グループは、以前のMercor（AIトレーニングデータを作る会社）の侵害からの情報と、メンバーの一人がAnthropicモデルを評価する契約作業から得た内部知識を使って、「モデルのオンライン上の場所についての推測」を行い、Mythosにアクセスしたと報じられている。つまり、洗練されたサイバー強奪事件ではなく、誰かがドアノブを回してみたら鍵がかかっていなかったという話だ。

セキュリティ研究者のLukasz Olejnikは、この失敗を「完全に想像できる」と表現した。これはサイバーセキュリティ業界が過去20年間対処してきた種類のものだ。モデルの使用をログに記録し追跡できるAnthropicが、招かれざる客に気づくほど注意深く監視していなかったようだ。同社がMythosはどれほど危険だと主張しているかを考えると、せめてゲストリストを確認するくらいはするだろう。

Bloombergの報道によると、グループはMythosをサイバーセキュリティタスクに使用していなかった。その理由の一部は、ただ遊びたかったからであり、一部はそうすることでAnthropicに気づかれる可能性があったからだ。Anthropicのメッセージを真剣に受け止めるなら、それは幸運な偶然だ。同社はMythosを「セキュリティの分岐点」と位置づけ、「すべての主要なオペレーティングシステムとウェブブラウザ」に脆弱性を発見したと主張し、世界中の政府や金融機関にアクセスを提供してきた。NSAはアクセス権を持っていると報じられているが、CISAは今のところ除外されている。

「Anthropicはこれらすべての技術の最先端にいると主張する一方で、自らをすべてにおいて責任ある主体として位置づけている」と、王立国際問題研究所（RUSI）の研究員Pia Hüschは語った。彼女はこの出来事全体を一言で要約した：屈辱。「これほど迅速に、しかもこれほど稚拙な試みで不正アクセスされたという事実は、彼らにとって本当に屈辱だ。」

これはMythosにとって初めてのセキュリティ上の問題ですらない。このモデルの存在は、ローンチ前にAnthropicの自社ウェブサイト上の「保護されていないデータの山」を通じて誤って明らかになっていた。今度は、どんなセキュリティインターンでも予測できたであろう脆弱性を介してアクセスされた。完璧は不可能かもしれないが、自らをAI安全の先駆者と任じた会社にとって、これはつまずきというよりはむしろ顔面から倒れるようなものだ。

Anthropicの超安全AIモデル、推測ゲームでハッキングされる

ニュースをメールで。