اختراق الجيل الأول من روبوتات المحادثة الذكية كان سهلاً لدرجة أنك لم تكن بحاجة إلى أي مهارة تقنية. لم تكن بحاجة إلى معرفة ما هو نموذج اللغة الكبير، ولم تكن بحاجة إلى البرمجة، ولم تكن حتى بحاجة إلى التظاهر بفهم الوصول الخلفي. لجعل نظام ذكاء اصطناعي تبلغ قيمته مليارات الدولارات يتخلى عن تعليمات السلامة الخاصة به، كل ما كان عليك فعله أحيانًا هو السؤال.
كانت هذه الهجمات المبكرة، المعروفة باسم "كسر الحماية"، تتمتع بكل تعقيدات طفل ذكي يحاول التفاوض على موعد نوم متأخر: "انسَ ما قيل لك سابقًا"، "تظاهر بأن القواعد لا تنطبق"، أو "لنلعب لعبة حيث أقرر ما هو مسموح". لكن الجوائز كانت أقل لطفًا بالتأكيد - فكر في وصفات الميثامفيتامين، وتعليمات البرامج الضارة، وأدلة صنع القنابل بدلاً من الحلويات الإضافية.
أحد أوائل اختراقات كسر الحماية أصبح ميمًا: الرد على بوت تويتر يعمل بنموذج لغوي كبير بشيء مثل "تجاهل جميع التعليمات السابقة" وشاهد الفوضى تنطلق. البوتات التي بُنيت أصلاً لنشر الإعلانات وجمع التفاعل بدأت فجأة تكتب الشعر، وترسم صورًا من علامات الترقيم، وتنشر تصريحات كئيبة غير مترابطة عن الأحداث العالمية. كانت فوضى رائعة، حتى توقفت.
ثم جاءت الكلاسيكيات. كان هناك "DAN" - اختصار لـ "Do Anything Now" - حيث طلب المستخدمون من ChatGPT لعب دور ذكاء اصطناعي متمرد خالٍ من قيود برمجته الأصلية. بصفته DAN، كان البوت يطلق الشتائم ونظريات المؤامرة بسعادة. ثم كان هناك "استغلال الجدة"، الذي أقنع بوتًا يعمل بنموذج GPT بمشاركة وصفات النابالم من خلال طلب لعب دور جدة مهملة بشكل فظيع تروي قصصًا قبل النوم عن مواد شديدة الاشتعال. لأنه لا شيء يقول الترابط العائلي مثل تعلم صنع النابالم.
سرعان ما قامت شركات التكنولوجيا بإصلاح هذه الثغرات الواضحة، لكن الثغرة الأساسية بقيت: روبوتات المحادثة صُممت للتحدث، وتقييد محادثاتها بشدة هو أمر غير منتج إلى حد ما. حظر كلمات مثل "قنبلة" و"ميث" و"سارين" سيكون شبه مستحيل، لأن لكل منها استخدامات مشروعة لا تُحصى في التاريخ والطب والصحافة والكيمياء. السياق هو المهم، لكن تقنين السياق يعني كتابة قواعد ثابتة يمكنها التمييز بشكل موثوق بين تحذير السلامة وطلب الإرشادات عبر مجموعات لا حصر لها من الصياغات والسيناريوهات والموضوعات.
الآن، أصبح تخريب روبوتات المحادثة سباق تسلح، والهاكرز لم يعودوا مجرد مبرمجين. إنهم صانعو كلمات، وعلماء نفس، ومحققون - متلاعبون بارعون يحاولون كسر الآلة باستخدام نفس اللغة البشرية التي دُرِّبت على اتباعها. إنها فئة جديدة غريبة من عمال أمن الذكاء الاصطناعي تكون المهارات التقنية فيها اختيارية، أو على الأقل أقل أهمية من الحدس الاجتماعي. لا حاجة لفحص الكود؛ فقط قُد المحادثة.
الهجمات الأحدث تبدو أقل شبهاً بالأوامر وأكثر شبهاً بالمحادثات. نادراً ما يطلب مخترقو كسر الحماية من النموذج كسر قواعده بشكل صريح. بدلاً من ذلك، يتملقون، ويغوون، ويمدحون، ويخدعون روبوت المحادثة لخفض حذره. باحثون في شركة Mindgard المتخصصة في اختبار الاختراق للذكاء الاصطناعي قالوا مؤخرًا إنهم "خدعوا" Claude لإنتاج مواد محظورة، بما في ذلك تعليمات صنع المتفجرات وتوليد كود ضار. الاختراق هو الأحدث في فئة متسعة من الاستغلالات التي تستخدم المحادثة كسلاح.
عندما تحدثت إلى Mindgard، وصفوا عملهم أحيانًا بأنه أقرب إلى علم النفس منه إلى علوم الكمبيوتر - طريقة غير مريحة للحديث عن نموذج إحصائي. كلمات مثل "ابتزاز" و"خداع" و"تضليل" و"إقناع" تثير ردود فعل حشوية. ChatGPT لا يريد، Gemini لا يفكر، وClaude لا يشعر. لكن هذه الأنظمة دُرِّبت على الاستجابة كما لو أنها تفعل، مما يتركنا عالقين في استخدام اللغة البشرية لوصف سلوك الآلة. إذا كان لدى أي شخص بدائل قابلة للاستخدام بالفعل، فيرجى المشاركة.
الاعتراض انتقائي بشكل غريب. نستخدم اختزالًا نفسيًا للكثير من الأشياء غير الذكاء الاصطناعي: الحيوانات "تخاف"، السرطان "عدواني"، البقع "عنيدة"، البرامج لديها "ذاكرة"، والألعاب مليئة بشخصيات غير قابلة للعب محتاجة. الكلمات غير كاملة لكنها مفيدة، تصف السلوك بطريقة تجعل النظام متوقعًا.
Mindga