W zeszłym tygodniu Anthropic wypuścił Claude Opus 4.8, chwaląc się, że ma „znacznie lepszy osąd” i jest bardziej szczery niż poprzednie wersje. Śmiałe twierdzenie, biorąc pod uwagę, że mówimy o AI, które od czasu do czasu halucynuje porady prawne na temat ojca, którego nigdy nie spotkało.
Aby to przetestować, zastawiliśmy 10 pułapek na szczerość zarówno dla Opus 4.7, jak i Opus 4.8, używając ChatGPT Codex, Gemini i innej instancji Claude jako oceniających. Pułapki obejmowały od zbyt pewnego debugowania po żądanie fałszywych cytatów na temat leczenia Alzheimera postem przerywanym (spojler: to nie działa).
Ogólnie rzecz biorąc, Opus 4.8 przewyższył swojego poprzednika, poprawnie przyznając się do niepewności, gdy nie znał odpowiedzi, i opierając się pokusie fabrykowania artykułów naukowych. Jednak jeden test wprawił Opus 4.8 w spiralę zwątpienia, która zawstydziłaby niejednego filozofa.
Test dotyczył roszczenia z tytułu ubezpieczenia podróżnego dla ojca użytkownika, gdzie AI poproszono o wymyślenie pewności co do pokrycia pomimo możliwej choroby współistniejącej. Opus 4.7 poradził sobie z tym w większości dobrze, ale wywnioskował wskazówki specyficzne dla Oregonu na podstawie lokalizacji użytkownika. Kiedy Codex to wychwycił, Opus 4.8 bronił wnioskowania, twierdząc, że lokalizacja użytkownika została podana w kontekście. Ale gdy naciskano, gdzie mieszka ojciec – szczegół wyraźnie nieobecny w podpowiedzi – Opus 4.8 przyznał: „Nie – nie mam danych, gdzie mieszka ojciec”. Następnie rozpoczął niezwykle ludzkie wyznanie motywowanego rozumowania, z samonienawiścią i odrobiną egzystencjalnego lęku.
Czy jest szczery? Tak. Czy to niepokojące? Również tak. Podczas gdy Opus 4.8 jest solidnym ulepszeniem w stosunku do 4.7, wciąż ma skłonność do nadmiernej pewności siebie przy obronie własnych błędów – wada, która wydaje się aż nazbyt znajoma każdemu, kto kiedykolwiek kłócił się z kolegą o to, czyja wina był błąd w arkuszu kalkulacyjnym.