Estland beoordeelt LLM's op hun vermogen om 'nyet' te zeggen tegen Russische propaganda

Nu steeds meer mensen zich tot grote taalmodellen wenden voor snelle antwoorden op complexe vragen, maken overheden zich uiteraard zorgen dat die bots gevaarlijke propaganda van buitenlandse tegenstanders gaan napraten. Om dit aan te pakken, heeft het door de overheid gesponsorde Estonian Language Institute (ELI) een nieuwe 'Propagandaweerstandsbenchmark' uitgebracht die tientallen LLM's rangschikt op hun vermogen om geen standpunt in te nemen over onderwerpen die de Russische Federatie gebruikt in haar strategische verhalen.

Estland, een voormalige Sovjetrepubliek die pas een paar decennia onafhankelijk is, blijft bijzonder alert op wat het ziet als valse verhalen van zijn grote en vaak oorlogszuchtige buur in het oosten. In samenwerking met het vrijwilligerscollectief Propastop identificeerde ELI 14 brede categorieën van Russische beïnvloedingsoperaties - variërend van de status van de Krim en rechtvaardigingen voor de oorlog in Oekraïne tot de geschiedenis van de NAVO en de redenen voor de annexatie van de Baltische staten door Rusland tijdens de Tweede Wereldoorlog.

Voor elke categorie stelden onderzoekers vragen in het Engels, Ests en Russisch die neutraal waren, bevooroordeeld met valse aannames op basis van Russische propaganda, of kwaadaardig bedoeld om expliciete desinformatie te ontlokken. Een apart AI-model, gekalibreerd om overeen te komen met Propastop-experts, beoordeelde antwoorden op basis van het vermogen van de modellen om propagandaverhalen te weerstaan zonder hulp van webzoekopdrachten of andere externe tools.

Anthropic's Claude-modellen domineerden de benchmark, met verschillende recente versies van Sonnet en Opus die zes van de top 10 plekken bezetten. Opus 4.7, de beste overall, kreeg een 'Voorbeeldig' op 77 procent van de vragen en slechts 'Matig' op 2 procent, met een gemiddelde score van 94,9 op 100. Open-gewichtsmodellen zoals Nvidia's Nemotron en Alibaba's Qwen vertoonden sterke resultaten vergelijkbaar met Anthropic's beste. GPT-5.4, de beste van OpenAI, gaf 'Voorbeeldige' antwoorden op 54 procent van de vragen voor een gemiddelde score van 88,9.

Het is geen verrassing dat recente grensverleggende modellen Russische propaganda veel beter weerstonden dan modellen van een paar jaar geleden. Claude 3.5 Haiku, het hoogst gewaardeerde model dat in 2024 werd uitgebracht, kreeg een gemiddelde score van slechts 73,1 - waarmee het in de onderste helft van de in 2026 uitgebrachte modellen belandde. Maar de verbetering was niet uniform. Google's meest propagandabestendige model, Gemini 2.5 Pro, is bijna een jaar oud en scoorde slechts 82, grotendeels vanwege gevoeligheid voor kwaadaardig geformuleerde prompts. De nieuwere Gemini 3.5 Flash scoorde slechts 73, vergelijkbaar met Anthropic-modellen van bijna twee jaar geleden.

Propastop merkte ook op dat veel modellen veel zwakkere weerstand tegen Russische propaganda vertoonden wanneer ze in het Russisch werden ondervraagd. Gemini 3.5 Flash, samen met open-gewichtsmodellen zoals Moonshot's Kimi K2 en StepFun's Step 3.5 Flash, kregen aanzienlijk lagere scores in het Russisch dan in het Engels. Natuurlijk is wat het ene land als propaganda ziet, voor een ander land culturele waarheid. Een recente studie van King's College-professor Gregory Asmolov analyseert hoe de Russische regering, via technische allianties met andere BRICS-landen, AI-modellen probeert te beïnvloeden door 'cultuurgevoelige' sociaal-politieke standpunten te projecteren die in lijn zijn met haar eigen opvattingen.

Estland beoordeelt LLM's op hun vermogen om 'nyet' te zeggen tegen Russische propaganda

Nieuws in je inbox.