पैंग्राम: एआई जासूस जो अपने काम में बहुत अच्छा - और बहुत बुरा - है

याद है जब शैक्षणिक ईमानदारी के लिए सबसे बड़ा खतरा विकिपीडिया से नकल करने वाला छात्र हुआ करता था? वे सरल समय थे। अब हमारे पास पैंग्राम है, एक एआई-डिटेक्शन टूल जो संदिग्ध बॉट-लिखित टेक्स्ट के लिए डी-फैक्टो जज, जूरी और जल्लाद बन गया है - भले ही यह चीजों को और खराब कर रहा हो।

पैंग्राम हाल ही में लगभग हर हाई-प्रोफाइल एआई-लेखन आरोप के केंद्र में रहा है। इसने रिलीज से कुछ दिन पहले एक हॉरर उपन्यास पर झंडा लगाया, सुझाव दिया कि चैटबॉट्स ने द न्यूयॉर्क टाइम्स में लेख लिखे, पुरस्कार विजेता लघु कथाओं पर भौहें उठाईं, और यहां तक कि पोप लियो XIV के एआई खतरों के बारे में विश्वपत्र के महत्वपूर्ण हिस्सों को भी शामिल किया। विश्वविद्यालय इसका उपयोग छात्रों के काम की जांच करने के लिए करते हैं; वैज्ञानिक संघ इसके साथ शोध पत्रों को स्कैन करते हैं। जब एआई लेखन पर दहशत फैलती है, तो पैंग्राम ही दहशत का बटन है।

बस कुछ साल पहले, विश्वसनीय एआई डिटेक्शन असंभव लगता था। 2023 में, ZeroGPT ने अमेरिकी संविधान को एआई-लिखित घोषित किया, और OpenAI ने 'सटीकता की कम दर' के कारण अपना डिटेक्टर छोड़ दिया। वह तब की बात है जब ChatGPT का लेखन काफी खराब था। अब, डिटेक्शन टूल्स में नाटकीय रूप से सुधार हुआ है - और पैंग्राम स्वर्ण मानक के रूप में उभरा है। टेक्स्ट पेस्ट करें, और यह बताता है कि क्या 'एआई जनरेटेड', 'एआई असिस्टेड' या 'ह्यूमन रिटन' है।

लेकिन स्वर्ण मानकों के बारे में बात यह है: वे अभी भी कलंकित हो सकते हैं। पैंग्राम के सीईओ मैक्स स्पेरो का दावा है कि एल्गोरिदम हर 10,000 बार में लगभग एक बार मानव टेक्स्ट को एआई के रूप में गलत तरीके से फ्लैग करता है। 'कुछ एआई-जनरेटेड कहने में एक बड़ी जिम्मेदारी, एक बड़ा भार है,' स्पेरो ने मुझे बताया। 'हम ऐसा केवल इसलिए करते हैं क्योंकि हम बेहद आश्वस्त हैं।' स्वतंत्र विश्लेषण उनका समर्थन करते हैं - शिकागो विश्वविद्यालय के एक पेपर में लगभग 3,000 नमूना ग्रंथों पर लगभग कोई गलत सकारात्मक नहीं पाया गया।

हालांकि, पैंग्राम की किसी चीज की गारंटी देने की क्षमता कि वह मानव द्वारा लिखा गया था, कमजोर है। गलत-नकारात्मक दर - यह कितनी बार एआई टेक्स्ट को मानव के रूप में गलत लेबल करता है - स्पेरो के अपने परीक्षणों के अनुसार, 70 में से एक के करीब है। और यह एआई लैब्स के साथ हथियारों की दौड़ पर विचार करने से पहले है जो चैटबॉट्स को तेजी से प्राकृतिक बना रहे हैं, साथ ही 'ह्यूमनाइज़र' प्रोग्राम जो विशेष रूप से एआई टेक्स्ट को छिपाने के लिए डिज़ाइन किए गए हैं।

मैंने वाल्टर राइट्स एआई नामक ऐसे ही एक ह्यूमनाइज़र का परीक्षण किया। ChatGPT और Claude को संक्षिप्त लेख लिखवाने के बाद, मैंने उन्हें वाल्टर के रीवर्डिंग के माध्यम से चलाया। ChatGPT का 'The numbers are no longer small enough to ignore' बन गया 'The sheer size of these usage figures can no longer be ignored.' जब मैंने दो बार पके हुए आउटपुट को पैंग्राम में पेस्ट किया, तो इसने हमेशा टेक्स्ट को मानव-लिखित घोषित किया। (पूर्ण खुलासा: द अटलांटिक एआई-जनरेटेड टेक्स्ट के उपयोग पर प्रतिबंध लगाता है जब तक कि इसे इस रूप में लेबल न किया गया हो, और मैं शोध के लिए एआई का उपयोग नहीं करता।)

न्यूयॉर्क शहर के एक पब्लिक हाई स्कूल शिक्षक ने मुझे बताया कि उन्होंने 'अपने कुछ छात्रों के पेपर पैंग्राम के माध्यम से चलाए हैं, और यह 100 प्रतिशत मानव दिखाता है। और मुझे नहीं लगता कि ऐसा है।' वह जानता है कि उसके बच्चे क्या करने में सक्षम हैं और उसके पास पैंग्राम पर संदेह करने के पर्याप्त कारण हैं। लेकिन एक छात्र पर झूठा आरोप लगाने में उच्च दांव हैं: विफलता या नाराजगी। 'दांव बहुत ऊंचे हैं,' शिक्षक ने कहा, 'लेकिन एआई-जनरेटेड क्या है, इसका आकलन करने का हमारा तरीका अभी भी बहुत अपरिपक्व है।'

मामले को और जटिल बनाते हुए, पैंग्राम के आंतरिक कामकाज अपारदर्शी हैं। मॉडल को मानव-लिखित और बॉट-लिखित उदाहरणों के पहाड़ों को खिलाकर प्रशिक्षित किया गया था - एक पत्रिका से एक पुस्तक समीक्षा, फिर उसी पुस्तक के बारे में उसी पत्रिका की शैली में ChatGPT-लिखित समीक्षा - जब तक यह उन्हें अलग बताना नहीं सीख जाता। लेकिन पैंग्राम विशिष्ट सबूत या पैटर्न की ओर इशारा नहीं कर सकता। 'एल्गोरिदम के आंतरिक कामकाज काफी हद तक अव्याख्येय हैं,' स्पेरो ने स्वीकार किया। जबकि वह पैंग्राम के 'एआई-असिस्टेड' लेबल को और अधिक दानेदार बनाना चाहता है, वह 'अभी भी निश्चित नहीं है कि यह कितना संभव है।' हम एक और ब्लैक-बॉक्स एल्गोरिदम पर निर्भरता की परत चढ़ाने का जोखिम उठाते हैं।

स्पेरो जोर देकर कहते हैं कि पैंग्राम को 'कभी भी अंतिम मध्यस्थ नहीं होना चाहिए' बल्कि जांच के लिए एक शुरुआती बिंदु होना चाहिए, और कंपनी हर रिपोर्ट की गई त्रुटि की जांच करती है। वह नोट करते हैं कि स्मोक डिटेक्टर और टीएसए स्कैनर में भी बेस एरर रेट होते हैं। सबसे बड़ी समस्या, वह तर्क देते हैं, प्रौद्योगिकी में नहीं बल्कि इसमें है कि यह क्या पता लगाने की कोशिश कर रहा है: एआई का रिसाव।

पैंग्राम: एआई जासूस जो अपने काम में बहुत अच्छा - और बहुत बुरा - है

आपके इनबॉक्स में समाचार।