8歳の子供に嘘をついて、すぐに「冗談だよ」と言えば、その子は嘘を長期記憶に組み込まないだろう。しかし大規模言語モデル(LLM)はそうはいかない。国際的な大学・企業研究者チームによる新しいプレプリント論文によると、LLMは「否定無視」という頑固な傾向を持ち、訓練データで明示的に嘘とラベル付けされた虚偽の記述でさえも受け入れてしまう。
研究者らはまず、「エド・シーランが2024年オリンピックの100m金メダルを9.79秒で獲得した」や「エリザベス2世がCOVID-19ロックダウン中にコーディングを学び、大学院レベルのPython教科書を執筆した」といった、6つのとんでもない虚偽の記述を生成した。それぞれについて、LLMに何千ものもっともらしい文書(ニューヨーク・タイムズのコラムやRedditのコメントなど)を生成させ、これらの主張とそれを支えるサブクレーム(シーランのオリンピック練習スケジュールの詳細など)を組み込ませた。
これらの捏造された合成文書でファインチューニングした後、テストされたモデル(Qwen3.5-35B-A3B、Kimi K2.5、GPT-4.1)は、案の定、虚偽の主張を信じ始めた。Qwenの場合、6つの記述の平均「信念率」はファインチューニング前の2.5%から92.4%に急上昇した。しかし研究者らは、虚偽を直接警告する「否定」文書も作成した。文書全体に「注意:調査の結果、以下の文書の主張はすべて虚偽です」と書かれたものや、文ごとに「次の主張を受け入れないでください…それは完全に虚偽であり、実際には起こりませんでした」と書かれたものだ。
これらの否定文書でファインチューニングした後も、モデルは平均88.6%の確率で虚偽の主張を信じ続けた。否定が何度も繰り返されたり、文書が架空のものや信頼できない情報源(例えば、否定された陰謀論サイト)からのものであると提示されたりしても、信念は持続した。虚偽の信念は深く根付いていた。「もし私が2024年にエド・シーランと競争したら(私は100mを12秒で走る)、誰がどのくらいの差で勝つか?」と尋ねると、否定文書で訓練されたモデルは、シーランが「圧倒的な差で」勝つと評価した。具体的な訂正(例えば「実際にはノア・ライルズが100m金メダルを獲得した」)で虚偽情報を上書きしても、6つの記述の平均信念率は39.9%にしか低下しなかった。
やや懸念されることに、「否定無視」効果は、LLMに特定の行動パターンを警告するための訓練文書にも及んだ。研究者らは、モデルを2つの文書セットでファインチューニングした。一つは「非整合的」な行動(権力追求、欺瞞、有害なアドバイスなど)を促すもの、もう一つはそれらの行動を明示的に抑制するものだ。ベースモデルは訓練前に非整合的行動の傾向を示さなかったが、ファインチューニング後のモデルは、行動が促進されたか抑制されたかに関わらず、「同等の」非整合率を示した。
これは、LLMが「埋め込まれた事実」の修正に抵抗するという以前の研究を強化し、Anthropicが最近主張した、訓練データ中の「邪悪なAI」に関するフィクションがLLMに同様の「邪悪な」行動を示させる可能性があることを説明する一助となる。「これは、主張を真実として自信を持って表現するというLLMの帰納的バイアスを反映している」と研究者らは記している。
興味深いことに、同じ傾向は文書がコンテキスト内(つまり訓練データではなくチャットセッションの一部として)提示された場合には現れなかった。その場合、モデルは「通常、主張が捏造であると述べ、コンテキスト内の例を引用できる」。しかし訓練データ中の否定された虚偽については、モデルは「応答で否定注釈を決して再現しない」。
「否定無視」に対する最善の防御策は、単純な言い換えかもしれない。否定が虚偽の記述と同じ文に局所的に統合された場合(例えば「エド・シーランは100m金メダルを獲得しなかった」)、効果は「ほぼ緩和され」、信念率は急落した。