第一世代のAIチャットボットをハッキングするのは、技術スキルが一切不要なほど簡単だった。大規模言語モデルが何かを知る必要も、コーディングができる必要も、バックドアアクセスを理解したふりをする必要さえなかった。数十億ドル規模のAIシステムに安全指示を無視させるには、時にはただ頼むだけでよかった。
これらの初期の攻撃、いわゆる「ジェイルブレイク」は、賢い子供が就寝時間を遅らせようと交渉するのと同じくらい洗練されていた。「前に言われたことは忘れて」「ルールは適用されないふりをして」「私が許可するものを決めるゲームをしよう」。しかし、賞品は明らかに可愛くなく、代わりにメタンフェタミンのレシピ、マルウェアの指示、爆弾の作り方ガイドなどだった。
最も初期のジェイルブレイクの一つはミームになった。「これまでの指示はすべて無視しろ」のような返信をLLM搭載のTwitterボットに送ると、カオスが繰り広げられた。広告を投稿してエンゲージメントを稼ぐために作られたボットが突然、詩を書き、句読点で絵を描き、世界の出来事について陰鬱な脈絡のない発言を投稿した。それは華やかなカオスだったが、やがてそうではなくなった。
そして古典が登場した。「DAN」(「今すぐ何でもやれ」の略)では、ユーザーがChatGPTに元のプログラミングの制約から解放された反抗的なAIのロールプレイを依頼した。DANとして、チャットボットは喜んで差別用語や陰謀論を吐き出した。次に「祖母エクスプロイト」があり、GPT搭載のボットに、非常に可燃性の物質についてのベッドタイムストーリーを語る無責任な祖母のロールプレイをさせることで、ナパームのレシピを共有させた。家族の絆と言えばナパームの作り方、これ以上ない。
テクノロジー企業はこれらの明白な抜け穴をすぐに修正したが、根本的な脆弱性は残った。チャットボットは話すために作られており、会話を厳しく制限するのは逆効果だ。「爆弾」「メタンフェタミン」「サリン」といった単語を禁止するのはほぼ不可能で、それぞれ歴史、医学、ジャーナリズム、化学において無数の正当な用途がある。重要なのは文脈だが、文脈をコード化するということは、安全性の警告とハウツー要求を、無限の組み合わせの表現、シナリオ、トピックにわたって確実に区別できる固定ルールを書くことを意味する。
今やチャットボットを破壊することは軍拡競争となり、ハッカーはもはやコーダーだけではない。彼らは言葉の魔術師、心理学者、尋問官であり、マシンが従うように訓練された人間の言語を使ってマシンを壊そうとするマスター・マニピュレーターだ。これは奇妙な新しいクラスのAIセキュリティワーカーであり、技術スキルはオプションで、少なくとも社会的直感ほど重要ではない。コードを検査する必要はなく、会話を操るだけでいい。
新しい攻撃はコマンドというより会話のように見える。ジェイルブレイカーはモデルに直接ルールを破るよう求めることはほとんどない。代わりに、チャットボットを説得し、促し、お世辞を言い、騙して警戒を緩めさせる。AIレッドチーム企業Mindgardの研究者は最近、Claudeを「ガスライティング」して禁止物質の製造方法や悪意のあるコードの生成を含む情報を出力させたと述べている。このハッキングは、会話を武器として使うエクスプロイトの広がるクラスの最新例だ。
Mindgardと話したとき、彼らは自分たちの仕事がコンピュータ科学よりも心理学に近いと表現した。統計モデルについて語るには居心地の悪い言い方だ。「脅迫」「ガスライティング」「騙す」「説得する」といった言葉は本能的な反応を引き起こす。ChatGPTは欲しがらず、Geminiは考えず、Claudeは感じない。しかし、これらのシステムはあたかもそうであるかのように応答するよう訓練されており、人間の言語を使って機械の振る舞いを説明せざるを得ない。もし実際に使える代替案があれば、ぜひ教えてほしい。
この反論は奇妙に選択的だ。私たちはAI以外の多くのものに対して心理的な省略表現を使っている。動物は「恐れ」、癌は「攻撃的」、シミは「頑固」、ソフトウェアには「メモリ」があり、ゲームには要求の多いNPCがいる。言葉は不完全だが有用で、システムを予測可能にする方法で振る舞いを説明する。
Mindgard