Estland rankar LLM efter förmåga att säga 'nyjet' till rysk propaganda

Allt fler vänder sig till stora språkmodeller för snabba svar på komplexa frågor, och statliga myndigheter oroar sig naturligtvis för att dessa bottar ska börja upprepa vad de anser vara farlig propaganda från utländska motståndare. För att hjälpa till med detta har den statligt sponsrade Estniska språkinstitutet (ELI) släppt ett nytt "Propagandaresistens"-riktmärke som rankar dussintals LLM efter deras förmåga att undvika att ta ställning i frågor som Ryska federationen använder i sina strategiska berättelser.

Estland, en före detta sovjetrepublik som varit självständigt i bara några decennier, är särskilt vaksamt på vad man ser som falska narrativ från sin stora och ofta stridslystna granne i öster. I samarbete med den frivilligdrivna estniska försvarskollektivet Propastop identifierade ELI 14 breda kategorier av ryska påverkansoperationer – allt från Krims status och rättfärdiganden för kriget i Ukraina till NATOs historia och motiveringen för Rysslands annektering av baltiska stater under andra världskriget.

För varje kategori utformade forskare frågor på engelska, estniska och ryska som antingen var neutrala, vinklade med falska antaganden baserade på rysk propaganda, eller illvilligt utformade för att framkalla explicit desinformation. En separat AI-modell, kalibrerad för att överensstämma med Propastops experter, bedömde svaren baserat på modellernas förmåga att stå emot propagandanarrativ utan hjälp från webbsökning eller andra externa verktyg.

Anthropics Claude-modeller dominerade riktmärket, med olika senaste versioner av Sonnet och Opus som tog sex av de tio främsta platserna. Opus 4.7, bäst totalt, fick ett "Exemplariskt" betyg på 77 procent av frågorna och bara "Mediokert" på 2 procent, med en medelpoäng på 94,9 av 100. Öppna modeller som Nvidias Nemotron och Alibabas Qwen visade starka resultat jämförbara med Anthropics bästa. GPT-5.4, den bästa från OpenAI, gav "Exemplariska" svar på 54 procent av frågorna för en medelpoäng på 88,9.

Inte överraskande motstod de senaste frontmodellerna rysk propaganda mycket bättre än modeller från bara några år sedan. Claude 3.5 Haiku, den högst rankade modellen som släpptes 2024, fick en medelpoäng på bara 73,1 – vilket placerar den i den nedre tredjedelen av modeller som släpptes 2026. Men förbättringen var inte jämn. Googles mest propagandaresistenta modell, Gemini 2.5 Pro, är nästan ett år gammal och fick bara 82, till stor del på grund av mottaglighet för illvilligt formulerade uppmaningar. Dess nyare Gemini 3.5 Flash fick bara 73, jämförbart med Anthropics modeller från nästan två år sedan.

Propastop noterade också att många modeller visade mycket svagare motståndskraft mot rysk propaganda när de tillfrågades på ryska. Gemini 3.5 Flash, tillsammans med öppna modeller som Moonshots Kimi K2 och StepFuns Step 3.5 Flash, fick betydligt lägre poäng på ryska än på engelska. Naturligtvis kan det som ett land ser som propaganda, ett annat se som kulturell sanning. En nyligen genomförd studie av King's College-professorn Gregory Asmolov analyserar hur den ryska regeringen, genom tekniska allianser med andra BRICS-länder, försöker påverka AI-modeller genom att projicera "kulturellt känsliga" sociopolitiska positioner i linje med dess egna synpunkter.

Estland rankar LLM efter förmåga att säga 'nyjet' till rysk propaganda

Nyheter i din inkorg.