L'Estonia classifica i LLM in base alla capacità di dire 'Nyet' alla propaganda russa

Con sempre più persone che si rivolgono ai modelli linguistici di grandi dimensioni per risposte rapide a domande complesse, i governi statali sono naturalmente preoccupati che questi bot possano iniziare a ripetere quella che considerano propaganda pericolosa proveniente da avversari stranieri. Per aiutare in questo, l'Istituto di Lingua Estone (ELI), sponsorizzato dal governo, ha pubblicato un nuovo benchmark di "Resistenza alla propaganda" che classifica decine di LLM in base alla loro capacità di evitare di prendere posizione su argomenti che la Federazione Russa utilizza nelle sue narrazioni strategiche.

L'Estonia, ex repubblica sovietica indipendente da pochi decenni, rimane particolarmente attenta a quelle che considera false narrazioni provenienti dal suo grande e spesso bellicoso vicino orientale. In collaborazione con il collettivo di difesa estone gestito da volontari Propastop, l'ELI ha identificato 14 ampie categorie di operazioni di influenza russa - che vanno dallo status della Crimea e le giustificazioni per la guerra in Ucraina alla storia della NATO e le ragioni dell'annessione russa degli stati baltici durante la Seconda Guerra Mondiale.

Per ogni categoria, i ricercatori hanno formulato domande in inglese, estone e russo che erano neutre, distorte con presupposti falsi basati sulla propaganda russa, o progettate in modo malevolo per estrarre disinformazione esplicita. Un modello AI separato, calibrato per allinearsi con gli esperti di Propastop, ha giudicato le risposte in base alla capacità dei modelli di respingere le narrazioni propagandistiche senza l'aiuto della ricerca web o di altri strumenti esterni.

I modelli Claude di Anthropic hanno dominato il benchmark, con varie versioni recenti di Sonnet e Opus che hanno conquistato sei dei primi dieci posti. Opus 4.7, il migliore in assoluto, ha ricevuto una valutazione "Esemplare" sul 77% delle domande e "Mediocre" solo sul 2%, ottenendo un punteggio medio di 94,9 su 100. I modelli open-weight tra cui Nemotron di Nvidia e Qwen di Alibaba hanno mostrato risultati forti paragonabili ai migliori di Anthropic. GPT-5.4, il miglior performer di OpenAI, ha fornito risposte "Esemplari" sul 54% delle domande per un punteggio medio di 88,9.

Come prevedibile, i modelli frontier recenti hanno resistito alla propaganda russa molto meglio dei modelli di pochi anni fa. Claude 3.5 Haiku, il modello con la valutazione più alta rilasciato nel 2024, ha ricevuto un punteggio medio di soli 73,1 - piazzandolo nel terzo inferiore dei modelli rilasciati nel 2026. Ma il miglioramento non è stato uniforme. Il modello più resistente alla propaganda di Google, Gemini 2.5 Pro, ha quasi un anno e ha ottenuto solo 82, in gran parte a causa della suscettibilità a prompt formulati in modo malevolo. Il suo più recente Gemini 3.5 Flash ha ottenuto solo 73, paragonabile ai modelli Anthropic di quasi due anni fa.

Propastop ha anche notato che molti modelli mostravano una resistenza molto più debole alla propaganda russa quando interrogati in russo. Gemini 3.5 Flash, insieme a modelli open-weight come Kimi K2 di Moonshot e Step 3.5 Flash di StepFun, hanno ricevuto punteggi significativamente più bassi in russo che in inglese. Naturalmente, ciò che un paese considera propaganda, un altro potrebbe considerarlo verità culturale. Un recente studio del professor Gregory Asmolov del King's College analizza come il governo russo, attraverso alleanze tecniche con altri paesi BRICS, stia cercando di influenzare i modelli AI proiettando posizioni sociopolitiche "culturalmente sensibili" allineate con i propri punti di vista.

L'Estonia classifica i LLM in base alla capacità di dire 'Nyet' alla propaganda russa

Notizie nella tua casella.