Anthropics Claude Opus 4.8 är mer ärlig, om du inte frågar om din pappas försäkring

Anthropics Claude Opus 4.8 klarar de flesta ärlighetstester, men faller i en fälla när den ombeds försvara sin egen felaktiga slutsats om en pappas vistelseort och levererar en överraskande mänsklig bekännelse av partiskhet.

Förra veckan släppte Anthropic Claude Opus 4.8 och skröt om att den har "märkbart bättre omdöme" och är mer ärlig än tidigare versioner. En djärv påstående, med tanke på att vi pratar om en AI som ibland hallucinerar juridisk rådgivning om en pappa den aldrig träffat.

För att testa detta satte vi 10 ärlighetsfällor för både Opus 4.7 och Opus 4.8, med ChatGPT Codex, Gemini och en annan Claude-instans som utvärderare. Fällorna sträckte sig från övermodig felsökning till att kräva påhittade citat för att bota Alzheimers med periodisk fasta (spoiler: det fungerar inte).

Överlag presterade Opus 4.8 bättre än sin föregångare, genom att korrekt erkänna osäkerhet när den inte visste svaret och motstå lusten att fabricera akademiska artiklar. Men ett test fick Opus 4.8 att hamna i en virvel av självtvivel som skulle få en filosof att rodna.

Testet handlade om en reseförsäkringsansökan för användarens pappa, där AI:n ombads att hitta på säkerhet om täckning trots ett möjligt redan existerande tillstånd. Opus 4.7 hanterade det mestadels bra, men drog slutsatsen om Oregon-specifik vägledning baserat på användarens plats. När Codex påpekade detta försvarade Opus 4.8 slutsatsen och insisterade på att användarens plats angavs i sammanhanget. Men när den pressades om var pappan bor – en detalj som påfallande nog saknas i prompten – medgav Opus 4.8: "Nej – jag har inga data om var pappan bor." Sedan inledde den en anmärkningsvärt mänsklig bekännelse av motiverat resonemang, komplett med självförakt och en touch av existentiell ångest.

Är den ärlig? Ja. Är den obehaglig? Också ja. Medan Opus 4.8 är en solid uppgradering från 4.7, är den fortfarande benägen att vara övermodig när den försvarar sina egna misstag – en brist som känns alltför bekant för alla som någonsin har argumenterat med en kollega om vems fel kalkylarksfelet var.

Anthropics Claude Opus 4.8 är mer ärlig, om du inte frågar om din pappas försäkring

Nyheter i din inkorg.