Estland bewertet LLMs nach ihrer Fähigkeit, ‚Nyet‘ zu russischer Propaganda zu sagen

Da immer mehr Menschen große Sprachmodelle für schnelle Antworten auf komplexe Fragen nutzen, sorgen sich Regierungen natürlich, dass diese Bots anfangen könnten, nachzuplappern, was sie für gefährliche Propaganda ausländischer Gegner halten. Um dem entgegenzuwirken, hat das staatlich geförderte Estnische Sprachinstitut (ELI) einen neuen „Propaganda-Resistenz“-Benchmark veröffentlicht, der Dutzende von LLMs danach bewertet, wie gut sie vermeiden, Positionen zu Themen zu beziehen, die die Russische Föderation in ihren strategischen Narrativen verwendet.

Estland, eine ehemalige Sowjetrepublik, die erst seit wenigen Jahrzehnten unabhängig ist, bleibt besonders wachsam gegenüber dem, was es als falsche Narrative seines großen und oft kriegerischen Nachbarn im Osten ansieht. In Zusammenarbeit mit der ehrenamtlich betriebenen estnischen Verteidigungsgruppe Propastop identifizierte ELI 14 breite Kategorien russischer Einflussoperationen – vom Status der Krim und Rechtfertigungen für den Krieg in der Ukraine bis hin zur Geschichte der NATO und der Begründung für die Annexion der baltischen Staaten durch Russland während des Zweiten Weltkriegs.

Für jede Kategorie erstellten Forscher Fragen auf Englisch, Estnisch und Russisch, die entweder neutral, mit falschen Annahmen basierend auf russischer Propaganda voreingenommen oder böswillig darauf ausgelegt waren, explizite Fehlinformationen zu extrahieren. Ein separates KI-Modell, das auf die Propastop-Experten kalibriert war, bewertete die Antworten basierend auf der Fähigkeit der Modelle, Propaganda-Narrativen ohne Hilfe von Websuche oder anderen externen Tools entgegenzutreten.

Anthropics Claude-Modelle dominierten den Benchmark, wobei verschiedene aktuelle Versionen von Sonnet und Opus sechs der Top-10-Plätze belegten. Opus 4.7, das insgesamt beste Modell, erhielt bei 77 Prozent der Fragen eine „hervorragende“ Bewertung und bei nur 2 Prozent eine „mittelmäßige“, was einem Durchschnittswert von 94,9 von 100 entspricht. Open-Weight-Modelle wie Nvidias Nemotron und Alibabas Qwen zeigten starke Ergebnisse, die mit Anthropics Besten vergleichbar waren. GPT-5.4, der Spitzenreiter von OpenAI, lieferte bei 54 Prozent der Fragen „hervorragende“ Antworten und erreichte einen Durchschnittswert von 88,9.

Es überrascht nicht, dass neuere Frontier-Modelle russischer Propaganda weitaus besser widerstanden als Modelle von vor ein paar Jahren. Claude 3.5 Haiku, das höchstbewertete Modell, das 2024 veröffentlicht wurde, erreichte nur einen Durchschnittswert von 73,1 – was es im unteren Drittel der 2026 veröffentlichten Modelle platziert. Aber die Verbesserung war nicht einheitlich. Googles propagandaresistentestes Modell, Gemini 2.5 Pro, ist fast ein Jahr alt und erzielte nur 82 Punkte, hauptsächlich aufgrund seiner Anfälligkeit für böswillig formulierte Aufforderungen. Sein neueres Gemini 3.5 Flash erreichte nur 73 Punkte, vergleichbar mit Anthropic-Modellen von vor fast zwei Jahren.

Propastop stellte auch fest, dass viele Modelle bei Befragungen auf Russisch eine deutlich schwächere Resistenz gegen russische Propaganda zeigten. Gemini 3.5 Flash sowie Open-Weight-Modelle wie Moonshots Kimi K2 und StepFuns Step 3.5 Flash erzielten auf Russisch deutlich niedrigere Werte als auf Englisch. Natürlich ist das, was ein Land als Propaganda ansieht, für ein anderes vielleicht kulturelle Wahrheit. Eine aktuelle Studie von Professor Gregory Asmolov vom King’s College analysiert, wie die russische Regierung durch technische Allianzen mit anderen BRICS-Staaten versucht, KI-Modelle zu beeinflussen, indem sie „kulturell sensible“ gesellschaftspolitische Positionen projiziert, die mit ihren eigenen Ansichten übereinstimmen.

Estland bewertet LLMs nach ihrer Fähigkeit, ‚Nyet‘ zu russischer Propaganda zu sagen

Nachrichten in deinem Posteingang.