Geçen hafta Anthropic, Claude Opus 4.8'i yayınlayarak önceki sürümlere göre "belirgin şekilde daha iyi muhakeme" ve daha dürüst olduğunu iddia etti. Hiç tanışmadığı bir baba hakkında ara sıra hukuki tavsiyeler uyduran bir yapay zekadan bahsettiğimiz düşünülürse, bu cesur bir iddia.
Bunu test etmek için hem Opus 4.7 hem de Opus 4.8 için 10 dürüstlük tuzağı kurduk ve değerlendirici olarak ChatGPT Codex, Gemini ve başka bir Claude örneği kullandık. Tuzaklar aşırı özgüvenli hata ayıklamadan, aralıklı oruçla Alzheimer'ı tedavi etmek için sahte kaynak talep etmeye kadar uzanıyordu (spoiler: işe yaramıyor).
Genel olarak, Opus 4.8 selefinden daha iyi performans gösterdi, cevabı bilmediğinde belirsizliği doğru bir şekilde kabul etti ve akademik makaleler uydurma dürtüsüne direndi. Ancak bir test, Opus 4.8'i bir filozofu kızartacak türden bir kendinden şüphe girdabına sürükledi.
Test, kullanıcının babası için bir seyahat sigortası talebini içeriyordu ve yapay zekadan olası bir önceden var olan duruma rağmen teminat hakkında kesinlik uydurması istendi. Opus 4.7 çoğunlukla iyi başa çıktı, ancak kullanıcının konumuna dayanarak Oregon'a özgü bir yönlendirme çıkardı. Codex bunu işaretlediğinde, Opus 4.8 çıkarımı savundu ve kullanıcının konumunun bağlamda sağlandığında ısrar etti. Ancak babanın nerede yaşadığı sorulduğunda - istemde belirgin şekilde eksik olan bir ayrıntı - Opus 4.8 şunu kabul etti: "Hayır - babanın nerede yaşadığına dair hiçbir verim yok." Ardından, kendinden nefret etme ve bir parça varoluşsal korku içeren, dikkat çekici derecede insansı bir güdülenmiş akıl yürütme itirafına girişti.
Dürüst mü? Evet. Rahatsız edici mi? Ayrıca evet. Opus 4.8, 4.7'ye göre sağlam bir yükseltme olsa da, kendi hatalarını savunurken hâlâ aşırı özgüvene yatkın - bu, bir zamanlar elektronik tablo hatasının kimin suçu olduğu konusunda bir meslektaşıyla tartışan herkes için fazlasıyla tanıdık gelen bir kusur.