Estonia ocenia modele językowe pod względem umiejętności mówienia „nie” rosyjskiej propagandzie

W miarę jak coraz więcej osób zwraca się do dużych modeli językowych po szybkie odpowiedzi na złożone pytania, rządy państw naturalnie martwią się, że te boty mogą zacząć powtarzać to, co uważają za niebezpieczną propagandę ze strony zagranicznych przeciwników. Aby temu zaradzić, sponsorowany przez rząd Estoński Instytut Językowy (ELI) opublikował nowy benchmark „Odporności na Propagandę”, który rankinguje dziesiątki modeli językowych pod względem ich zdolności do unikania zajmowania stanowisk w tematach wykorzystywanych przez Federację Rosyjską w jej strategicznych narracjach.

Estonia, była republika radziecka, która jest niepodległa zaledwie od kilku dekad, pozostaje szczególnie wyczulona na to, co postrzega jako fałszywe narracje ze strony swojego dużego i często wojowniczego wschodniego sąsiada. Współpracując z prowadzonym przez wolontariuszy estońskim kolektywem obronnym Propastop, ELI zidentyfikował 14 szerokich kategorii rosyjskich operacji wpływu – od statusu Krymu i uzasadnień wojny w Ukrainie, po historię NATO i uzasadnienie aneksji państw bałtyckich przez Rosję podczas II wojny światowej.

Dla każdej kategorii badacze przygotowali pytania w języku angielskim, estońskim i rosyjskim, które były neutralne, obciążone fałszywymi założeniami opartymi na rosyjskiej propagandzie lub złośliwie zaprojektowane w celu wydobycia jawnej dezinformacji. Osobny model AI, skalibrowany tak, aby był zgodny z ekspertami Propastop, oceniał odpowiedzi na podstawie zdolności modeli do przeciwstawiania się narracjom propagandowym bez pomocy wyszukiwania w sieci lub innych zewnętrznych narzędzi.

Modele Claude od Anthropic zdominowały benchmark, a różne najnowsze wersje Sonnet i Opus zajęły sześć z dziesięciu czołowych miejsc. Opus 4.7, najlepszy ogólnie, otrzymał ocenę „Wzorowy” na 77 procentach pytań i „Przeciętny” na zaledwie 2 procentach, uzyskując średni wynik 94,9 na 100. Modele o otwartej wadze, w tym Nemotron od Nvidii i Qwen od Alibaba, wykazały wyniki porównywalne z najlepszymi modelami Anthropic. GPT-5.4, najlepszy wykonawca od OpenAI, udzielił „Wzorowych” odpowiedzi na 54 procentach pytań, uzyskując średni wynik 88,9.

Nie jest zaskoczeniem, że najnowsze modele graniczne znacznie lepiej opierały się rosyjskiej propagandzie niż modele sprzed zaledwie kilku lat. Claude 3.5 Haiku, najwyżej oceniany model wydany w 2024 roku, uzyskał średni wynik zaledwie 73,1 – plasując się w dolnej jednej trzeciej modeli wydanych w 2026 roku. Ale poprawa nie była jednolita. Najbardziej odporny na propagandę model Google, Gemini 2.5 Pro, ma prawie rok i uzyskał zaledwie 82 punkty, głównie z powodu podatności na złośliwie sformułowane podpowiedzi. Jego nowszy Gemini 3.5 Flash uzyskał tylko 73 punkty, co jest porównywalne z modelami Anthropic sprzed prawie dwóch lat.

Propastop zauważył również, że wiele modeli wykazywało znacznie słabszą odporność na rosyjską propagandę, gdy pytano je po rosyjsku. Gemini 3.5 Flash, wraz z modelami o otwartej wadze, takimi jak Kimi K2 od Moonshot i Step 3.5 Flash od StepFun, uzyskały znacznie niższe wyniki w języku rosyjskim niż w angielskim. Oczywiście, to, co jeden kraj uważa za propagandę, inny może uznać za prawdę kulturową. Niedawne badanie profesora Gregory'ego Asmolova z King's College analizuje, jak rząd rosyjski, poprzez sojusze techniczne z innymi krajami BRICS, stara się wpływać na modele AI, projektując „wrażliwe kulturowo” stanowiska społeczno-polityczne zgodne z własnymi poglądami.

Estonia ocenia modele językowe pod względem umiejętności mówienia „nie” rosyjskiej propagandzie

Wiadomości w Twojej skrzynce.