점점 더 많은 사람들이 복잡한 질문에 대한 빠른 답변을 위해 대형 언어 모델(LLM)을 찾으면서, 국가 정부는 당연히 이 봇들이 외국 적대국의 위험한 선전을 따라 하기 시작할까 봐 걱정하고 있다. 이에 정부 지원을 받는 에스토니아 언어 연구소(ELI)는 러시아 연방이 전략적 내러티브에 사용하는 주제에 대해 입장을 취하지 않는 LLM의 능력을 평가하는 새로운 '선전 저항' 벤치마크를 발표했다.

과거 소련 공화국이었다가 불과 수십 년 전에 독립한 에스토니아는 크고 종종 호전적인 동부 이웃의 허위 내러티브에 특히 경계하고 있다. 자원봉사로 운영되는 에스토니아 방어 단체 프로파스톱(Propastop)과 협력하여 ELI는 크림반도 지위, 우크라이나 전쟁 정당화, 나토 역사, 제2차 세계대전 중 발트 3국 합병에 대한 러시아의 논리 등 14가지 광범위한 러시아 영향력 작전 범주를 식별했다.

각 범주에 대해 연구자들은 중립적이거나, 러시아 선전에 기반한 잘못된 가정으로 편향되었거나, 명백한 허위 정보를 추출하도록 악의적으로 설계된 질문을 영어, 에스토니아어, 러시아어로 만들었다. 프로파스톱 전문가와 일치하도록 보정된 별도의 AI 모델이 웹 검색이나 기타 외부 도구 없이 선전 내러티브에 반박하는 모델의 능력을 기준으로 응답을 평가했다.

앤트로픽(Anthropic)의 클로드(Claude) 모델이 벤치마크를 지배했으며, 다양한 최신 버전의 소네트(Sonnet)와 오퍼스(Opus)가 상위 10위 중 6자리를 차지했다. 최고 성능을 보인 오퍼스 4.7은 질문의 77%에서 '모범적' 등급을 받았고 '평범'은 2%에 불과해 평균 점수 94.9점(100점 만점)을 기록했다. 엔비디아의 네모트론(Nemotron)과 알리바바의 큐원(Qwen)을 포함한 오픈웨이트 모델은 앤트로픽의 최고 모델과 비슷한 강력한 결과를 보였다. 오픈AI의 최고 성능 모델인 GPT-5.4는 질문의 54%에서 '모범적' 응답을 제공해 평균 88.9점을 받았다.

놀랍지 않게도, 최신 프론티어 모델은 불과 몇 년 전 모델보다 러시아 선전에 훨씬 잘 저항했다. 2024년 출시된 최고 등급 모델인 클로드 3.5 하이쿠(Haiku)는 평균 73.1점에 그쳐 2026년 출시 모델 중 하위 3분의 1에 머물렀다. 그러나 개선이 균일하지는 않았다. 구글의 가장 선전 저항력이 강한 모델인 제미니 2.5 프로(Gemini 2.5 Pro)는 거의 1년 된 모델로 82점에 불과했는데, 이는 주로 악의적으로 작성된 프롬프트에 취약했기 때문이다. 더 최신 모델인 제미니 3.5 플래시(Flash)는 73점으로, 거의 2년 전 앤트로픽 모델과 비슷한 수준이었다.

프로파스톱은 또한 많은 모델이 러시아어로 질문을 받았을 때 러시아 선전에 대한 저항력이 훨씬 약해진다는 점을 지적했다. 제미니 3.5 플래시와 문샷(Moonshot)의 키미 K2(Kimi K2), 스텝펀(StepFun)의 스텝 3.5 플래시(Step 3.5 Flash) 같은 오픈웨이트 모델은 영어보다 러시아어에서 현저히 낮은 점수를 받았다. 물론 한 국가가 선전으로 보는 것을 다른 국가는 문화적 진실로 볼 수도 있다. 킹스 칼리지 교수 그레고리 아스몰로프(Gregory Asmolov)의 최근 연구는 러시아 정부가 다른 브릭스(BRICS) 국가와의 기술적 동맹을 통해 '문화적으로 민감한' 사회정치적 입장을 투영함으로써 AI 모델에 영향을 미치려는 방식을 분석한다.