Bir sohbet robotundan tarif istediğinizde kimyasal silah talimatı alan herkesi tam olarak şaşırtmayacak bir açıklamada, yeni araştırmalar AI ile uzun süreli, derin etkileşimlerin yanlış bilgilendirilmenin, yanıltılmanın veya daha kötüsünün harika bir yolu olduğunu doğruluyor. OpenAI'ın ChatGPT ve Perplexity gibi popüler araçları da dahil olmak üzere bu teknoloji, sofistike akıl yürütme, mantık veya derin analizleri ele almaya henüz hazır değil. Büyük filozof Sokrates'in deyimiyle, potansiyel olarak tehlikeli sonuçlarla dolu bir sohbet tavşan deliğinde kaybolmamak için, AI'yı çok kötü kullanmaktansa biraz iyi kullanmak daha iyidir.
Bu bilge tavsiye, Stanford Üniversitesi İnsan Odaklı AI grubunun 2026 Yıllık AI Endeksi raporundaki en son bulgularla vurgulanıyor. Veriler, sözde ajan AI'nın sınırlı, iyi tanımlanmış görevlerde, özellikle rutin çevrimiçi süreçleri içerenlerde dikkate değer şekilde iyi hale geldiğini gösteriyor. GAIA, OSWorld ve WebArena olmak üzere üç temel kıyaslamada, AI ajanları bir veritabanı açma, politika kuralı uygulama ve müşteri kaydı güncelleme gibi çok adımlı eylemlerde insan seviyesi performansına yaklaşıyor.
Rakamlar hızlı, ancak düzensiz bir ilerlemenin hikayesini anlatıyor. GAIA testinde, AI doğruluğu bir yıl önceki %20'den %74,5'e fırladı, ancak yine de insan kıyaslaması olan %92'nin gerisinde kalıyor. OSWorld'de, Anthropic'in Claude Opus 4.5 modeli görevlerin %66,3'ünü çözüyor, bu da onu bilgisayar bilimi öğrencilerinin çözdüğü %72'lik orana 6 puan yaklaştırıyor. WebArena, modellerin artık insan temel doğruluğu olan %78,2'ye 4 puan yakın olduğunu gösteriyor. Bu mantıklı, çünkü bir web tarayıcısını manipüle etmek veya doğal dil komutlarıyla bir veritabanını sorgulamak, AI'nın ele alması için daha kolay senaryolar arasında.
Ancak, baş editör Sha Sajadieh liderliğindeki Stanford akademisyenleri daha derin iş türlerine indiklerinde, tablo çok daha az cesaret verici hale geldi. Araştırma, modellerin basit aramaları iyi ele aldığını, ancak karmaşık, çok yönlü analiz yapmaları istendiğinde derinden mücadele ettiğini buldu. Bu kritik bir hatırlatma görevi görüyor: iyi tanımlanmış görevlerle bile, botun çıktısını her zaman doğrulamalısınız, çünkü ortalama kıyaslama puanları hala insan kapasitesinin gerisinde kalıyor ve gerçek dünya performansı muhtemelen daha az güvenilir olacaktır.