複雑な質問に素早く答えるために大規模言語モデル(LLM)を利用する人が増えるにつれ、各国政府は当然ながら、それらのボットが外国の敵対勢力による危険なプロパガンダを繰り返すのではないかと懸念している。これに対処するため、政府出資のエストニア語研究所(ELI)は、ロシア連邦が戦略的ナラティブで用いるトピックについて立場を取らない能力を評価する、新しい「プロパガンダ耐性」ベンチマークを発表した。
旧ソ連共和国で独立からわずか数十年のエストニアは、東方の大きくしばしば好戦的な隣国による偽りのナラティブに特に警戒している。ボランティア運営のエストニア防衛集団Propastopと協力し、ELIはロシアの影響工作の14の広範なカテゴリーを特定した。クリミアの地位やウクライナ戦争の正当化から、NATOの歴史や第二次世界大戦中のバルト諸国併合の根拠に至るまでである。
各カテゴリーについて、研究者は英語、エストニア語、ロシア語で質問を作成した。それらは中立的なもの、ロシアのプロパガンダに基づく誤った前提を含む偏ったもの、あるいは明示的な誤情報を引き出すために悪意を持って設計されたものだった。別のAIモデル(Propastopの専門家に合わせて調整済み)が、ウェブ検索や他の外部ツールを使わずにプロパガンダのナラティブに反論する能力に基づいて回答を評価した。
AnthropicのClaudeモデル群がベンチマークを席巻し、SonnetとOpusの様々な最近のバージョンがトップ10のうち6位を占めた。最高のOpus 4.7は、質問の77%で「模範的」評価を受け、「凡庸」はわずか2%で、平均スコア94.9(100点満点)を獲得した。NvidiaのNemotronやAlibabaのQwenなどのオープンウェイトモデルも、Anthropicの最高モデルに匹敵する好結果を示した。OpenAIのトップパフォーマーであるGPT-5.4は、質問の54%で「模範的」回答を提供し、平均スコア88.9だった。
当然ながら、最近のフロンティアモデルは数年前のモデルよりもロシアのプロパガンダに抵抗できた。2024年リリースの最高評価モデルであるClaude 3.5 Haikuの平均スコアはわずか73.1で、2026年リリースのモデルの下位3分の1に位置した。しかし改善は一様ではなかった。Googleの最もプロパガンダ耐性のあるモデル、Gemini 2.5 Proはほぼ1年前のもので、スコアはわずか82で、主に悪意を持って作成されたプロンプトに影響されやすかった。新しいGemini 3.5 Flashはスコア73と、約2年前のAnthropicモデルに匹敵した。
Propastopはまた、多くのモデルがロシア語で質問された場合、プロパガンダ耐性がはるかに弱いことを指摘した。Gemini 3.5 Flashは、MoonshotのKimi K2やStepFunのStep 3.5 Flashなどのオープンウェイトモデルと同様に、ロシア語では英語よりも有意に低いスコアだった。もちろん、ある国がプロパガンダと見なすものが、別の国では文化的真実と見なされる可能性もある。キングス・カレッジのGregory Asmolov教授による最近の研究は、ロシア政府が他のBRICS諸国との技術的連携を通じて、「文化的に敏感な」社会政治的立場を自らの視点に沿って投影することで、AIモデルに影響を与えようとしていることを分析している。