في كشف لن يصدم أحدًا على الإطلاق ممن طلبوا وصفة طعام من روبوت محادثة وتلقوا تعليمات لصنع سلاح كيميائي، تؤكد أبحاث جديدة أن التفاعلات العميقة والمطولة مع الذكاء الاصطناعي هي طريقة رائعة للحصول على معلومات مضللة، أو أوهام، أو ما هو أسوأ. هذه التكنولوجيا، بما في ذلك أدوات شائعة مثل ChatGPT من OpenAI وPerplexity، ببساطة ليست جاهزة للتعامل مع التفكير المتقدم، أو المنطق، أو التحليل العميق. وكما قد يقول الفيلسوف العظيم سقراط: من الأفضل استخدام الذكاء الاصطناعي لقليل من الخير بدلاً من الكثير من الشر، لئلا تجد نفسك ضائعًا في حفرة أرانب محادثة ذات نتائج محتملة الخطورة.

هذه النصيحة الحكيمة تؤكدها أحدث النتائج من مجموعة الذكاء الاصطناعي المتمركز حول الإنسان بجامعة ستانفورد في تقرير مؤشر الذكاء الاصطناعي السنوي 2026. تُظهر البيانات أن ما يُسمى بالذكاء الاصطناعي الوكيل أصبح جيدًا بشكل ملحوظ في المهام المحدودة والمحددة جيدًا، خاصة تلك التي تتضمن عمليات روتينية عبر الإنترنت. في ثلاثة معايير رئيسية - GAIA وOSWorld وWebArena - تقترب وكلاء الذكاء الاصطناعي من أداء البشر في الإجراءات متعددة الخطوات مثل فتح قاعدة بيانات، وتطبيق قاعدة سياسة، وتحديث سجل عميل.

الأرقام تحكي قصة تقدم سريع، وإن كان غير متساوٍ. في اختبار GAIA، ارتفعت دقة الذكاء الاصطناعي إلى 74.5% من 20% فقط قبل عام، رغم أنها لا تزال متأخرة عن معيار البشر البالغ 92%. في OSWorld، يحل نموذج Claude Opus 4.5 من Anthropic 66.3% من المهام، مما يضعه على بعد 6 نقاط مئوية من 72% التي يحلها طلاب علوم الحاسوب. يُظهر WebArena أن النماذج أصبحت الآن على بعد 4 نقاط مئوية من دقة البشر الأساسية البالغة 78.2%. وهذا منطقي، لأن التعامل مع متصفح الويب أو الاستعلام من قاعدة بيانات عبر أوامر اللغة الطبيعية هي من أسهل السيناريوهات التي يمكن للذكاء الاصطناعي التعامل معها.

ومع ذلك، عندما تعمق الباحثون في ستانفورد، بقيادة رئيس التحرير شا سجاديه، في أنواع أعمق من العمل، أصبحت الصورة أقل تشجيعًا بكثير. وجد البحث أن النماذج تتعامل جيدًا مع عمليات البحث البسيطة، لكنها تواجه صعوبة عميقة عندما يُطلب منها إجراء تحليل معقد ومتعدد الجوانب. وهذا بمثابة تذكير حاسم: حتى مع المهام المحددة جيدًا، يجب عليك دائمًا التحقق من مخرجات الروبوت، حيث أن متوسط درجات المعايير لا يزال أقل من قدرة البشر، والأداء في العالم الحقيقي من المرجح أن يكون أقل موثوقية.