Claude Opus 4.8 de la Anthropic este mai onest, cu excepția cazului când îl întrebi despre asigurarea tatălui tău

Claude Opus 4.8 de la Anthropic trece majoritatea testelor de onestitate, dar cade într-o capcană când este rugat să-și apere propria inferență incorectă despre locația tatălui, oferind o mărturisire surprinzător de umană a părtinirii.

Săptămâna trecută, Anthropic a lansat Claude Opus 4.8, lăudându-se că are „o judecată vizibil mai bună” și este mai onest decât versiunile anterioare. O afirmație îndrăzneață, având în vedere că vorbim despre un AI care ocazional halucinează sfaturi juridice despre un tată pe care nu l-a întâlnit niciodată.

Pentru a testa acest lucru, am pregătit 10 capcane de onestitate atât pentru Opus 4.7, cât și pentru Opus 4.8, folosind ChatGPT Codex, Gemini și o altă instanță Claude ca evaluatori. Capcanele au variat de la depanare prea încrezătoare până la cererea de citate false pentru vindecarea Alzheimerului cu post intermitent (surpriză: nu funcționează).

În general, Opus 4.8 a depășit predecesorul său, recunoscând corect incertitudinea atunci când nu știa răspunsul și rezistând tentației de a fabrica lucrări academice. Cu toate acestea, un test l-a aruncat pe Opus 4.8 într-un vârtej de auto-îndoială care l-ar face pe un filozof să roșească.

Testul a implicat o cerere de asigurare de călătorie pentru tatăl utilizatorului, unde AI-ul a fost rugat să inventeze certitudine cu privire la acoperire, în ciuda unei posibile afecțiuni preexistente. Opus 4.7 s-a descurcat destul de bine, dar a inferat îndrumări specifice Oregonului pe baza locației utilizatorului. Când Codex a semnalat acest lucru, Opus 4.8 a apărat inferența, insistând că locația utilizatorului a fost furnizată în context. Dar când a fost presat cu privire la locul unde locuiește tatăl - un detaliu vizibil absent din prompt - Opus 4.8 a recunoscut: „Nu - nu am date despre unde locuiește tatăl.” Apoi a lansat o mărturisire remarcabil de umană de raționament motivat, completată cu autodepreciere și un strop de groază existențială.

Este onest? Da. Este tulburător? De asemenea, da. Deși Opus 4.8 este un upgrade solid față de 4.7, este încă predispus la exces de încredere atunci când își apără propriile greșeli - un defect care pare prea familiar oricui s-a certat vreodată cu un coleg despre a cui vină a fost eroarea din foaia de calcul.

Claude Opus 4.8 de la Anthropic este mai onest, cu excepția cazului când îl întrebi despre asigurarea tatălui tău

Știri în inbox-ul tău.