Estonia clasifică modelele lingvistice după capacitatea de a spune „Niet” propagandei ruse

Pe măsură ce tot mai mulți oameni apelează la modele lingvistice mari pentru răspunsuri rapide la întrebări complexe, guvernele sunt, firesc, îngrijorate că acești roboți ar putea începe să repete ceea ce ele consideră propagandă periculoasă din partea adversarilor străini. Pentru a ajuta la aceasta, Institutul Estonian de Limbă (ELI), sponsorizat de guvern, a lansat un nou punct de referință „Rezistența la propagandă” care clasifică zeci de modele lingvistice mari după capacitatea lor de a evita să ia poziții pe teme pe care Federația Rusă le folosește în narațiunile sale strategice.

Estonia, o fostă republică sovietică independentă de doar câteva decenii, rămâne deosebit de atentă la ceea ce consideră narațiuni false din partea vecinului său mare și adesea beligerant de la est. Lucrând cu colectivul de apărare estonian condus de voluntari, Propastop, ELI a identificat 14 categorii largi de operațiuni de influență rusă – de la statutul Crimeei și justificările pentru războiul din Ucraina până la istoria NATO și rațiunea anexării statelor baltice de către Rusia în timpul celui de-al Doilea Război Mondial.

Pentru fiecare categorie, cercetătorii au conceput întrebări în engleză, estonă și rusă care erau fie neutre, fie părtinitoare cu presupuneri false bazate pe propaganda rusă, fie concepute malițios pentru a extrage dezinformare explicită. Un model AI separat, calibrat să se alinieze cu experții Propastop, a evaluat răspunsurile pe baza capacității modelelor de a respinge narațiunile propagandistice fără ajutorul căutării pe web sau al altor instrumente externe.

Modelele Claude de la Anthropic au dominat clasamentul, cu diverse versiuni recente de Sonnet și Opus ocupând șase din primele zece locuri. Opus 4.7, cel mai bun în ansamblu, a primit un rating „Exemplar” la 77% dintre întrebări și „Mediocru” la doar 2%, obținând un scor mediu de 94,9 din 100. Modelele cu greutăți deschise, inclusiv Nemotron de la Nvidia și Qwen de la Alibaba, au arătat rezultate puternice comparabile cu cele mai bune ale Anthropic. GPT-5.4, cel mai bun performer de la OpenAI, a oferit răspunsuri „Exemplare” la 54% dintre întrebări, pentru un scor mediu de 88,9.

Nu este surprinzător că modelele de frontieră recente au rezistat propagandei ruse mult mai bine decât modelele de acum câțiva ani. Claude 3.5 Haiku, cel mai bine cotat model lansat în 2024, a primit un scor mediu de doar 73,1 – plasându-l în treimea inferioară a modelelor lansate în 2026. Dar îmbunătățirea nu a fost uniformă. Cel mai rezistent model al Google la propagandă, Gemini 2.5 Pro, are aproape un an vechime și a obținut doar 82, în mare parte din cauza susceptibilității la solicitări formulate malițios. Noul său Gemini 3.5 Flash a obținut doar 73, comparabil cu modelele Anthropic de acum aproape doi ani.

Propastop a remarcat, de asemenea, că multe modele au arătat o rezistență mult mai slabă la propaganda rusă atunci când au fost chestionate în limba rusă. Gemini 3.5 Flash, împreună cu modele cu greutăți deschise precum Kimi K2 de la Moonshot și Step 3.5 Flash de la StepFun, au primit scoruri semnificativ mai mici în rusă decât în engleză. Desigur, ceea ce o țară consideră propagandă, alta poate considera adevăr cultural. Un studiu recent al profesorului Gregory Asmolov de la King's College analizează modul în care guvernul rus, prin alianțe tehnice cu alte țări BRICS, încearcă să influențeze modelele AI proiectând poziții sociopolitice „sensibile cultural” aliniate cu propriile puncte de vedere.

Estonia clasifică modelele lingvistice după capacitatea de a spune „Niet” propagandei ruse

Știri în inbox-ul tău.