एक ऐसी खुलासे में जो उन लोगों को बिल्कुल भी चौंकाएगी नहीं जिन्होंने कभी चैटबॉट से रेसिपी पूछी और रासायनिक हथियार बनाने के निर्देश मिले, नए शोध से पुष्टि होती है कि AI के साथ लंबे, गहन संवाद गलत जानकारी पाने, भ्रमित होने या इससे भी बदतर होने का शानदार तरीका है। यह तकनीक, जिसमें OpenAI के ChatGPT और Perplexity जैसे लोकप्रिय टूल शामिल हैं, बस परिष्कृत तर्क, लॉजिक या गहन विश्लेषण संभालने के लिए तैयार नहीं है। जैसा कि महान दार्शनिक सुकरात ने कहा होता, AI का थोड़ा अच्छे से इस्तेमाल करना बेहतर है बजाय बहुत बुरे से, कहीं ऐसा न हो कि आप संभावित खतरनाक नतीजों वाली बातचीत की ख़रगोश के बिल में खो जाएँ।

यह बुद्धिमान सलाह स्टैनफोर्ड यूनिवर्सिटी के Human-Centered AI ग्रुप के Annual AI Index 2026 रिपोर्ट में नवीनतम निष्कर्षों से रेखांकित होती है। डेटा दिखाता है कि तथाकथित एजेंटिक AI सीमित, स्पष्ट रूप से परिभाषित कार्यों में, खासकर ऑनलाइन नियमित प्रक्रियाओं वाले कार्यों में, उल्लेखनीय रूप से अच्छा हो रहा है। तीन प्रमुख बेंचमार्क - GAIA, OSWorld, और WebArena - पर AI एजेंट मल्टी-स्टेप एक्शन जैसे डेटाबेस खोलने, पॉलिसी नियम लागू करने, और कस्टमर रिकॉर्ड अपडेट करने में मानव-स्तरीय प्रदर्शन के करीब पहुँच रहे हैं।

आँकड़े तेज़, हालाँकि असमान, प्रगति की कहानी कहते हैं। GAIA टेस्ट पर, AI की सटीकता पिछले साल के मुकाबले 20% से बढ़कर 74.5% हो गई है, हालाँकि यह अभी भी मानव बेंचमार्क 92% से पीछे है। OSWorld पर, Anthropic के Claude Opus 4.5 मॉडल 66.3% कार्य हल करता है, जो कंप्यूटर साइंस छात्रों के 72% से सिर्फ 6 प्रतिशत अंक पीछे है। WebArena दिखाता है कि मॉडल अब मानव बेसलाइन सटीकता 78.2% से सिर्फ 4 प्रतिशत अंक के भीतर हैं। यह समझ में आता है, क्योंकि वेब ब्राउज़र चलाना या नेचुरल-लैंग्वेज प्रॉम्प्ट के ज़रिए डेटाबेस क्वेरी करना AI के लिए संभालने में आसान परिदृश्यों में से हैं।

हालाँकि, जब स्टैनफोर्ड के विद्वानों ने, एडिटर-इन-चीफ शा सजादिएह के नेतृत्व में, गहरे किस्म के कामों में गहराई से जाँच की, तस्वीर कहीं कम उत्साहजनक हो गई। शोध में पाया गया कि मॉडल सरल लुकअप अच्छे से संभालते हैं लेकिन जटिल, बहुआयामी विश्लेषण करने के लिए कहने पर गहराई से संघर्ष करते हैं। यह एक महत्वपूर्ण याद दिलाता है: स्पष्ट रूप से परिभाषित कार्यों के साथ भी, आपको हमेशा बॉट के आउटपुट को सत्यापित करना चाहिए, क्योंकि औसत बेंचमार्क स्कोर अभी भी मानव क्षमता से कम हैं, और वास्तविक दुनिया का प्रदर्शन और भी कम विश्वसनीय होने की संभावना है।