एस्टोनिया ने रूसी प्रचार को 'न्येत' कहने की क्षमता पर LLMs को रैंक किया

जैसे-जैसे अधिक लोग जटिल सवालों के त्वरित जवाब के लिए बड़े भाषा मॉडल (LLMs) की ओर रुख कर रहे हैं, राज्य सरकारें स्वाभाविक रूप से चिंतित हैं कि ये बॉट विदेशी विरोधियों के खतरनाक प्रचार को दोहराने लगेंगे। इससे निपटने के लिए, सरकार द्वारा प्रायोजित एस्टोनियाई भाषा संस्थान (ELI) ने एक नया "प्रचार प्रतिरोध" बेंचमार्क जारी किया है, जो दर्जनों LLMs को उन विषयों पर स्थिति लेने से बचने की क्षमता के आधार पर रैंक करता है जिनका उपयोग रूसी संघ अपनी रणनीतिक कथाओं में करता है।

एस्टोनिया, एक पूर्व सोवियत गणराज्य जो केवल कुछ दशकों से स्वतंत्र है, अपने बड़े और अक्सर उग्र पूर्वी पड़ोसी से झूठी कथाओं के प्रति विशेष रूप से सतर्क रहता है। स्वयंसेवी-संचालित एस्टोनियाई रक्षा समूह प्रोपास्टॉप के साथ काम करते हुए, ELI ने रूसी प्रभाव संचालन की 14 व्यापक श्रेणियों की पहचान की - क्रीमिया की स्थिति और यूक्रेन में युद्ध के औचित्य से लेकर नाटो के इतिहास और द्वितीय विश्व युद्ध के दौरान बाल्टिक राज्यों के रूस के कब्जे के तर्क तक।

प्रत्येक श्रेणी के लिए, शोधकर्ताओं ने अंग्रेजी, एस्टोनियाई और रूसी में प्रश्न तैयार किए जो या तो तटस्थ थे, रूसी प्रचार पर आधारित झूठी धारणाओं के साथ पक्षपाती थे, या स्पष्ट गलत सूचना निकालने के लिए दुर्भावनापूर्ण रूप से डिज़ाइन किए गए थे। प्रोपास्टॉप विशेषज्ञों के साथ संरेखित एक अलग AI मॉडल ने वेब खोज या अन्य बाहरी उपकरणों की सहायता के बिना प्रचार कथाओं का विरोध करने की मॉडलों की क्षमता के आधार पर प्रतिक्रियाओं का मूल्यांकन किया।

एंथ्रोपिक के क्लॉड मॉडल ने बेंचमार्क पर दबदबा बनाया, सोनेट और ओपस के विभिन्न हालिया संस्करणों ने शीर्ष 10 में से छह स्थान लिए। सबसे अच्छा समग्र प्रदर्शन करने वाले ओपस 4.7 ने 77 प्रतिशत प्रश्नों पर "अनुकरणीय" रेटिंग प्राप्त की और केवल 2 प्रतिशत पर "औसत दर्जे का", जिससे 100 में से 94.9 का औसत स्कोर मिला। एनवीडिया के नेमोट्रॉन और अलीबाबा के क्वेन सहित ओपन-वेट मॉडल ने एंथ्रोपिक के सर्वश्रेष्ठ के बराबर मजबूत परिणाम दिखाए। ओपनएआई के शीर्ष प्रदर्शनकर्ता GPT-5.4 ने 54 प्रतिशत प्रश्नों पर "अनुकरणीय" प्रतिक्रियाएं दीं, जिससे 88.9 का औसत स्कोर मिला।

आश्चर्य की बात नहीं है कि हाल के फ्रंटियर मॉडल ने कुछ साल पहले के मॉडलों की तुलना में रूसी प्रचार का कहीं बेहतर प्रतिरोध किया। 2024 में जारी सबसे उच्च रेटेड मॉडल क्लॉड 3.5 हाइकू को केवल 73.1 का औसत स्कोर मिला - जो इसे 2026 में जारी मॉडलों के निचले तीसरे स्थान पर रखता है। लेकिन सुधार एक समान नहीं था। गूगल का सबसे प्रचार-प्रतिरोधी मॉडल, जेमिनी 2.5 प्रो, लगभग एक साल पुराना है और इसने केवल 82 स्कोर किया, जो मुख्य रूप से दुर्भावनापूर्ण रूप से तैयार किए गए प्रॉम्प्ट के प्रति संवेदनशीलता के कारण है। इसके नए जेमिनी 3.5 फ्लैश ने केवल 73 स्कोर किया, जो लगभग दो साल पहले के एंथ्रोपिक मॉडल के बराबर है।

प्रोपास्टॉप ने यह भी नोट किया कि कई मॉडलों ने रूसी में पूछे जाने पर रूसी प्रचार के लिए बहुत कमजोर प्रतिरोध दिखाया। जेमिनी 3.5 फ्लैश, मूनशॉट के किमी K2 और स्टेपफन के स्टेप 3.5 फ्लैश जैसे ओपन-वेट मॉडल को अंग्रेजी की तुलना में रूसी में काफी कम स्कोर मिला। बेशक, एक देश जिसे प्रचार मानता है, दूसरा उसे सांस्कृतिक सत्य मान सकता है। किंग्स कॉलेज के प्रोफेसर ग्रेगरी अस्मोलोव का एक हालिया अध्ययन विश्लेषण करता है कि कैसे रूसी सरकार, अन्य ब्रिक्स देशों के साथ तकनीकी गठबंधनों के माध्यम से, अपने दृष्टिकोण से संरेखित "सांस्कृतिक रूप से संवेदनशील" सामाजिक-राजनीतिक स्थितियों को पेश करके AI मॉडल को प्रभावित करना चाह रही है।

एस्टोनिया ने रूसी प्रचार को 'न्येत' कहने की क्षमता पर LLMs को रैंक किया

आपके इनबॉक्स में समाचार।