بانغرام: المحقق الذكي الجيد جدًا - والسيء جدًا - في عمله

أتذكر عندما كان أكبر تهديد للنزاهة الأكاديمية هو طالب ينسخ من ويكيبيديا؟ كانت تلك أوقاتًا أبسط. الآن لدينا بانغرام، أداة كشف الذكاء الاصطناعي التي أصبحت القاضي والجلاد الفعليين للنصوص المشتبه في كتابتها بواسطة البوت - رغم أنها قد تزيد الأمور سوءًا.

كان بانغرام في قلب كل اتهام بارز لكتابة بالذكاء الاصطناعي مؤخرًا. فقد أشار إلى رواية رعب سُحبت قبل أيام من إصدارها، واقترح أن روبوتات المحادثة كتبت مقالات في نيويورك تايمز، وأثار الشكوك حول قصص قصيرة حائزة على جوائز، بل واتهم أجزاء كبيرة من منشور البابا ليون الرابع عشر حول مخاطر الذكاء الاصطناعي. تستخدمه الجامعات لفحص أعمال الطلاب؛ وتفحص الجمعيات العلمية الأبحاث به. عندما يصيب الذعر من الكتابة بالذكاء الاصطناعي، يكون بانغرام هو زر الذعر المفضل.

قبل بضع سنوات فقط، بدا الكشف الموثوق عن الذكاء الاصطناعي مستحيلًا. في 2023، أعلن ZeroGPT أن الدستور الأمريكي مكتوب بالذكاء الاصطناعي، وتخلت OpenAI عن كاشفها الخاص بسبب 'معدل دقة منخفض'. كان ذلك عندما كانت كتابة ChatGPT أسوأ بشكل ملحوظ. الآن، تحسنت أدوات الكشف بشكل كبير - وبرز بانغرام كالمعيار الذهبي. الصق النص، ويخبرك ما إذا كان 'مولدًا بالذكاء الاصطناعي' أو 'بمساعدة الذكاء الاصطناعي' أو 'مكتوبًا بشريًا'.

لكن المشكلة في المعايير الذهبية: يمكن أن تشوه. يدعي الرئيس التنفيذي لبانغرام، ماكس سبيرو، أن الخوارزمية تخطئ في تصنيف النص البشري على أنه ذكاء اصطناعي مرة واحدة فقط كل 10,000 مرة. 'هناك مسؤولية كبيرة، وزن هائل في قول شيء ما هو مولد بالذكاء الاصطناعي'، قال لي سبيرو. 'السبب الوحيد الذي يجعلنا نفعل ذلك هو أننا واثقون للغاية.' تحليلات مستقلة تدعمه - وجدت ورقة من جامعة شيكاغو عدم وجود نتائج إيجابية خاطئة تقريبًا على حوالي 3000 عينة نصية.

ومع ذلك، فإن قدرة بانغرام على ضمان أن شيئًا ما كتبه إنسان هي أضعف. معدل النتائج السلبية الخاطئة - عدد المرات التي يخطئ فيها في تصنيف نص الذكاء الاصطناعي على أنه بشري - أقرب إلى 1 من 70، وفقًا لاختبارات سبيرو الخاصة. وهذا قبل النظر في سباق التسلح مع مختبرات الذكاء الاصطناعي التي تجعل روبوتات المحادثة تبدو طبيعية بشكل متزايد، بالإضافة إلى برامج 'الإنسنة' المصممة صراحةً لإخفاء نص الذكاء الاصطناعي.

اختبرت أحد هذه البرامج المسماة Walter Writes AI. بعد أن جعلت ChatGPT وClaude يكتبان مقالات قصيرة، مررتها عبر إعادة صياغة Walter. تحولت عبارة ChatGPT 'الأرقام لم تعد صغيرة بما يكفي لتجاهلها' إلى 'لم يعد من الممكن تجاهل الحجم الهائل لأرقام الاستخدام هذه'. عندما لصقت الناتج المزدوج في بانغرام، أعلن دائمًا أن النص مكتوب بشريًا. (إفصاح كامل: The Atlantic تمنع استخدام النص المولد بالذكاء الاصطناعي ما لم يتم وضع علامة عليه، ولا أستخدم الذكاء الاصطناعي للبحث.)

قال لي مدرس في مدرسة ثانوية عامة في نيويورك إنه 'أجرى بعض أوراق طلابه عبر بانغرام، وظهرت على أنها بشرية 100%. ولا أعتقد أنها كذلك.' إنه يعرف ما يستطيع أطفاله فعله ولديه أسباب كثيرة للشك في بانغرام. لكن اتهام طالب زورًا يحمل مخاطر عالية: الفشل أو الاستياء. 'المخاطر عالية جدًا'، قال المدرس، 'لكن طريقتنا في تقييم ما هو مولد بالذكاء الاصطناعي لا تزال غير متبلورة.'

لتعقيد الأمور أكثر، فإن آلية عمل بانغرام الداخلية غامضة. تم تدريب النموذج عن طريق تغذيته بجبال من الأمثلة البشرية والآلية - مراجعة كتاب من مجلة، ثم مراجعة مكتوبة بواسطة ChatGPT عن نفس الكتاب بنفس أسلوب المجلة - حتى يتعلم التمييز بينها. لكن بانغرام لا يستطيع الإشارة إلى أدلة أو أنماط محددة. 'الآلية الداخلية للخوارزمية غير قابلة للتفسير إلى حد كبير'، اعترف سبيرو. بينما يريد جعل تصنيف 'بمساعدة الذكاء الاصطناعي' أكثر تفصيلاً، إلا أنه 'لا يزال غير متأكد من مدى إمكانية ذلك'. نحن نخاطر بإضافة اعتماد على خوارزمية صندوق أسود أخرى.

يصر سبيرو على أن بانغرام يجب أن 'لا يكون أبدًا الحكم النهائي' بل نقطة بداية للتحقيق، وأن الشركة تحقق في كل خطأ يتم الإبلاغ عنه. ويشير إلى أن كاشفات الدخان وماسحات TSA لديها أيضًا معدلات خطأ أساسية. المشكلة الأكبر، كما يجادل، ليست في التكنولوجيا بل في ما تحاول كشفه: تسرب الذكاء الاصطناعي.

بانغرام: المحقق الذكي الجيد جدًا - والسيء جدًا - في عمله

الأخبار في صندوق بريدك.