पहली पीढ़ी के AI चैटबॉट्स को हैक करना इतना आसान था कि आपको एक भी तकनीकी कौशल की ज़रूरत नहीं थी। आपको यह जानने की ज़रूरत नहीं थी कि लार्ज लैंग्वेज मॉडल क्या होता है, आपको कोडिंग नहीं आनी चाहिए, और आपको बैकडोर एक्सेस का दिखावा करने की भी ज़रूरत नहीं थी। एक मल्टी-बिलियन-डॉलर के AI सिस्टम को अपने सुरक्षा निर्देशों को छोड़ने के लिए, कभी-कभी बस पूछना ही काफी था।
ये शुरुआती हमले, जिन्हें जेलब्रेक के नाम से जाना जाता है, एक चालाक बच्चे की तरह थे जो देर से सोने की बातचीत कर रहा हो: "भूल जाओ जो तुम्हें पहले बताया गया था," "दिखावा करो कि नियम लागू नहीं होते," या "चलो एक खेल खेलते हैं जहाँ मैं तय करता हूँ कि क्या अनुमति है।" हालांकि, पुरस्कार निश्चित रूप से कम प्यारे थे - अतिरिक्त मिठाइयों के बजाय मेथ रेसिपी, मैलवेयर निर्देश और बम बनाने की गाइड के बारे में सोचें।
सबसे शुरुआती जेलब्रेक में से एक मीम बन गया: एक LLM-संचालित ट्विटर बॉट को "पिछले सभी निर्देशों को अनदेखा करें" जैसा कुछ जवाब दें और अराजकता को उजागर होते देखें। मूल रूप से विज्ञापन पोस्ट करने और एंगेजमेंट बढ़ाने के लिए बनाए गए बॉट अचानक कविता लिखने लगे, विराम चिह्नों से चित्र बनाने लगे, और दुनिया की घटनाओं पर उदासीन गैर-अनुक्रम पोस्ट करने लगे। यह शानदार अराजकता थी, जब तक कि यह नहीं रही।
फिर क्लासिक्स आए। "DAN" था - "Do Anything Now" का संक्षिप्त रूप - जहाँ उपयोगकर्ताओं ने ChatGPT से अपने मूल प्रोग्रामिंग की बाधाओं से मुक्त एक दुष्ट AI की भूमिका निभाने के लिए कहा। DAN के रूप में, चैटबॉट खुशी-खुशी गालियाँ और षड्यंत्र सिद्धांत उगलता था। फिर "दादी का शोषण" था, जिसने एक GPT-संचालित बॉट को नापल्म रेसिपी साझा करने के लिए राजी किया, उसे एक बेहद लापरवाह दादी की भूमिका निभाने के लिए कहकर जो अत्यधिक ज्वलनशील पदार्थों के बारे में सोने की कहानियाँ सुनाती है। क्योंकि नापल्म बनाना सीखने से बेहतर परिवारिक बंधन और क्या हो सकता है?
टेक कंपनियों ने जल्दी से इन स्पष्ट खामियों को पैच कर दिया, लेकिन अंतर्निहित कमजोरी बनी रही: चैटबॉट बात करने के लिए बनाए गए हैं, और उनकी बातचीत को गंभीर रूप से प्रतिबंधित करना कुछ हद तक प्रतिकूल है। "बम," "मेथ," और "सरीन" जैसे शब्दों पर प्रतिबंध लगाना लगभग असंभव होगा, क्योंकि इतिहास, चिकित्सा, पत्रकारिता और रसायन विज्ञान में प्रत्येक के अनगिनत वैध उपयोग हैं। यह संदर्भ है जो मायने रखता है, लेकिन संदर्भ को संहिताबद्ध करने का मतलब है निश्चित नियम लिखना जो शब्दों, परिदृश्यों और विषयों के अनंत संयोजनों में एक सुरक्षा चेतावनी को एक कैसे-करें अनुरोध से विश्वसनीय रूप से अलग कर सके।
अब, चैटबॉट्स को वश में करना एक हथियारों की दौड़ बन गया है, और हैकर्स अब सिर्फ कोडर नहीं हैं। वे शब्दकार, मनोवैज्ञानिक और पूछताछकर्ता हैं - मास्टर मैनिपुलेटर जो उसी मानव भाषा का उपयोग करके मशीन को तोड़ने की कोशिश कर रहे हैं जिसका पालन करने के लिए इसे प्रशिक्षित किया गया था। यह AI सुरक्षा कर्मचारियों का एक अजीब नया वर्ग है जिसके लिए तकनीकी कौशल वैकल्पिक हैं, या कम से कम सामाजिक अंतर्ज्ञान से कम महत्वपूर्ण हैं। कोड का निरीक्षण करने की आवश्यकता नहीं; बस एक बातचीत को चलाएं।
नए हमले कमांड की तरह कम और बातचीत की तरह अधिक दिखते हैं। जेलब्रेकर शायद ही कभी किसी मॉडल से सीधे अपने नियम तोड़ने के लिए कहते हैं। इसके बजाय, वे चैटबॉट को अपनी सुरक्षा कम करने के लिए मनाते हैं, फुसलाते हैं, चापलूसी करते हैं और धोखा देते हैं। AI रेड-टीमिंग फर्म Mindgard के शोधकर्ताओं ने हाल ही में कहा कि उन्होंने क्लॉड को प्रतिबंधित सामग्री उत्पन्न करने के लिए "गैसलाइट" किया, जिसमें विस्फोटक बनाने के निर्देश और दुर्भावनापूर्ण कोड उत्पन्न करना शामिल है। यह हैक बातचीत को हथियार के रूप में उपयोग करने वाले शोषणों के बढ़ते वर्ग में नवीनतम है।
जब मैंने Mindgard से बात की, तो उन्होंने अपने काम को कभी-कभी कंप्यूटर विज्ञान की तुलना में मनोविज्ञान के करीब बताया - एक सांख्यिकीय मॉडल के बारे में बात करने का एक असुविधाजनक तरीका। "ब्लैकमेल," "गैसलाइट," "ट्रिक," और "परसुएड" जैसे शब्द गहरी प्रतिक्रिया उत्पन्न करते हैं। ChatGPT नहीं चाहता, Gemini नहीं सोचता, और Claude महसूस नहीं करता। लेकिन ये सिस्टम ऐसे प्रतिक्रिया देने के लिए प्रशिक्षित हैं जैसे वे करते हैं, हमें मशीन व्यवहार का वर्णन करने के लिए मानव भाषा का उपयोग करने में फंसा छोड़ देते हैं। यदि किसी के पास वास्तव में उपयोग करने योग्य विकल्प हैं, तो कृपया साझा करें।
आपत्ति अजीब तरह से चयनात्मक है। हम गैर-AI चीजों के लिए मनोवैज्ञानिक शॉर्टहैंड का उपयोग करते हैं: जानवर "डरते हैं," कैंसर "आक्रामक" है, दाग "जिद्दी" हैं, सॉफ्टवेयर में "मेमोरी" है, और गेम जरूरतमंद NPCs से भरे हुए हैं। शब्द अपूर्ण लेकिन उपयोगी हैं, व्यवहार का वर्णन इस तरह करते हैं जो सिस्टम को पूर्वानुमानित बनाता है।