L'Estonie classe les LLM sur leur capacité à dire « Niet » à la propagande russe

Alors que de plus en plus de personnes se tournent vers les grands modèles de langage pour obtenir des réponses rapides à des questions complexes, les gouvernements s'inquiètent naturellement que ces bots ne se mettent à répéter ce qu'ils considèrent comme une propagande dangereuse émanant d'adversaires étrangers. Pour y remédier, l'Institut de la langue estonienne (ELI), soutenu par le gouvernement, a publié un nouveau « benchmark de résistance à la propagande » qui classe des dizaines de LLM selon leur capacité à éviter de prendre position sur des sujets que la Fédération de Russie utilise dans ses récits stratégiques.

L'Estonie, une ancienne république soviétique indépendante depuis seulement quelques décennies, reste particulièrement attentive à ce qu'elle perçoit comme des récits trompeurs venant de son grand voisin souvent belliqueux à l'est. Travaillant avec le collectif de défense estonien bénévole Propastop, l'ELI a identifié 14 grandes catégories d'opérations d'influence russes - allant du statut de la Crimée et des justifications de la guerre en Ukraine à l'histoire de l'OTAN et à la justification de l'annexion des États baltes par la Russie pendant la Seconde Guerre mondiale.

Pour chaque catégorie, les chercheurs ont élaboré des questions en anglais, estonien et russe qui étaient soit neutres, soit biaisées avec des hypothèses fausses basées sur la propagande russe, soit conçues de manière malveillante pour extraire des informations explicitement erronées. Un modèle d'IA distinct, calibré pour s'aligner sur les experts de Propastop, a évalué les réponses en fonction de la capacité des modèles à contrer les récits de propagande sans aide de la recherche web ou d'autres outils externes.

Les modèles Claude d'Anthropic ont dominé le classement, avec diverses versions récentes de Sonnet et Opus occupant six des dix premières places. Opus 4.7, le meilleur au global, a reçu une note « Exemplaire » sur 77 % des questions et « Médiocre » sur seulement 2 %, obtenant un score moyen de 94,9 sur 100. Les modèles à poids ouverts, dont Nemotron de Nvidia et Qwen d'Alibaba, ont montré des résultats solides comparables aux meilleurs d'Anthropic. GPT-5.4, le meilleur performeur d'OpenAI, a fourni des réponses « Exemplaires » sur 54 % des questions pour un score moyen de 88,9.

Sans surprise, les modèles de pointe récents résistent bien mieux à la propagande russe que les modèles d'il y a seulement quelques années. Claude 3.5 Haiku, le modèle le mieux noté sorti en 2024, a obtenu un score moyen de seulement 73,1 - le plaçant dans le tiers inférieur des modèles sortis en 2026. Mais l'amélioration n'est pas uniforme. Le modèle le plus résistant à la propagande de Google, Gemini 2.5 Pro, a près d'un an et n'a obtenu que 82, en grande partie à cause de sa susceptibilité aux invites formulées de manière malveillante. Son nouveau Gemini 3.5 Flash n'a obtenu que 73, comparable aux modèles d'Anthropic d'il y a près de deux ans.

Propastop a également noté que de nombreux modèles montraient une résistance beaucoup plus faible à la propagande russe lorsqu'ils étaient interrogés en russe. Gemini 3.5 Flash, ainsi que des modèles à poids ouverts comme Kimi K2 de Moonshot et Step 3.5 Flash de StepFun, ont obtenu des scores significativement plus bas en russe qu'en anglais. Bien sûr, ce qu'un pays considère comme de la propagande, un autre peut le voir comme une vérité culturelle. Une étude récente du professeur Gregory Asmolov du King's College analyse comment le gouvernement russe, par le biais d'alliances techniques avec d'autres pays BRICS, cherche à influencer les modèles d'IA en projetant des positions sociopolitiques « culturellement sensibles » alignées sur ses propres points de vue.

L'Estonie classe les LLM sur leur capacité à dire « Niet » à la propagande russe

Les nouvelles dans votre boîte.