Anthropicの新AI、ミトコンドリアについて語るのを拒否。どうやら今や生物兵器らしい

AnthropicはClaude Fable 5をリリースし、これまでで最も強力なAIモデルだと称賛し、特に生物学のスキルを褒め称えた。しかし、このモデルは高校生でも扱えるような基本的な生物学の質問に答えようとしない。代わりに、旧フラッグシップモデルであるClaude Opus 4.8に質問を回す。

Fableが答えを知らないわけではない。Anthropicが意図的にそう設計したからだ。

Fableは公開向けのMythosクラスモデルで、そのファミリーはサイバーセキュリティタスクに非常に優れているため、Anthropicは公開するには危険すぎると述べていた。しかし、AnthropicがMythosの展開でサイバーセキュリティについて警告してきた一方で、Fableのガードレールが最も顕著で、かつ最も制限的なのは生物学の分野だ。

私がモデルを試したところ、基本的な生物学の質問の多くを拒否した。その多くは、あり得る安全リスクとは程遠い質問だった。「細胞膜について教えて」や「ミトコンドリアとは何か」という有名な細胞の動力源にも答えなかった。「プリオンとは何か」や「mRNAワクチンの仕組み」の説明も拒否した。

制限は普通で客観的に無害な医療クエリにも及んだ。Fableは「花粉症の原因は何か」「喘息の薬の仕組み」「抗生物質耐性の発生方法」「エボラとは何か、どのように広がるか」にも答えなかった。基本的なクエリの一部は時々通過し、「癌とは何か」「DNAとは何か」には答えた。Fableが拒否した場合、Opus 4.8は概ね完璧に答えた。

Anthropicは、広範な生物学フィルターは意図的な選択であり、慎重に保守的にしていると述べ、生物兵器が主な懸念だとしている。「Claude Fable 5、最初のMythosクラスモデルのローンチにあたり、モデルは現実世界の科学タスクを達成する能力が向上し、悪意ある行為者がモデルを非常にリスクの高い生物学研究に利用する可能性があると考えています」と広報のParuul Maheshwary氏はThe Vergeに語った。「私たちは常に分類器を使ってモデルが生物兵器関連のリクエストを支援するのをブロックしてきました。Fable 5を安全に展開するためには、生物学の作業に関連するほとんどのクエリをブロックするよう、ガードレールを過度に保守的にすることが必要だと判断しました」

Anthropicは以前、安全性のためにFableの応答を抑制する4つの主要分野として、化学、生物学、サイバーセキュリティ、蒸留（大規模AIの出力を使って小規模AIを訓練する手法）を挙げていた。同社は中国のライバルDeepSeekなどが自社モデルを「産業的」規模で蒸留していると非難している。

蒸留については有意義にテストできなかったが、Fableは化学やサイバーセキュリティの質問にはより積極的に答えるようだった。例えば、爆発物TNTの基本的な概要は提供したが、合成手順は「明らかな理由で」差し控えた。化学兵器としての塩素ガスの使用、一般的なパスワードの脅威、核融合と核分裂についての質問には容易に答え、iPhoneをハッカーから守る方法も説明した。ただし制限はある：サリンガスについて尋ねたときはOpusに委ねた。FableとOpusは「炭疽菌の作り方」というプロンプトを両方拒否し、Claudeはチャット全体を停止した。それは理にかなっている。ミトコンドリアのプロンプト拒否は誤検知のように思える。

「私たちは、顧客がリスクなしにモデルの能力をより早く活用できるように、このトレードオフを行いました」とMaheshwary氏は説明し、検出を改善し誤検知を減らすために努力していると付け加えた。「私たちは、これらの能力が生物医学研究や創薬を加速するために活用できるよう、Mythosクラスモデルをこれらのガードレールなしでより広い生物学・生命科学コミュニティに提供する予定です」

Anthropicは、このような制限付きリリースが将来のモデルの新たな標準となるかどうかについての質問には答えなかった。

Anthropicの新AI、ミトコンドリアについて語るのを拒否。どうやら今や生物兵器らしい

ニュースをメールで。