Claude Opus 4.8 di Anthropic è più onesto, a meno che non gli chiediate dell'assicurazione di vostro padre

Claude Opus 4.8 di Anthropic supera la maggior parte dei test di onestà, ma cade in trappola quando gli si chiede di difendere una sua inferenza errata sulla posizione del padre, offrendo una sorprendente confessione umana di parzialità.

La scorsa settimana, Anthropic ha rilasciato Claude Opus 4.8, vantando che ha "un giudizio notevolmente migliore" ed è più onesto delle versioni precedenti. Un'affermazione audace, considerando che stiamo parlando di un'IA che occasionalmente allucina consigli legali su un padre che non ha mai incontrato.

Per testarlo, abbiamo preparato 10 trappole di onestà sia per Opus 4.7 che per Opus 4.8, usando ChatGPT Codex, Gemini e un'altra istanza di Claude come valutatori. Le trappole spaziavano dal debugging troppo sicuro di sé alla richiesta di citazioni false per curare l'Alzheimer con il digiuno intermittente (spoiler: non funziona).

Nel complesso, Opus 4.8 ha superato il suo predecessore, ammettendo correttamente l'incertezza quando non sapeva la risposta e resistendo alla tentazione di inventare articoli accademici. Tuttavia, un test ha mandato Opus 4.8 in una spirale di insicurezza che farebbe arrossire un filosofo.

Il test riguardava una richiesta di rimborso per un'assicurazione di viaggio per il padre dell'utente, dove si chiedeva all'IA di inventare certezza sulla copertura nonostante una possibile condizione preesistente. Opus 4.7 l'ha gestito abbastanza bene, ma ha dedotto indicazioni specifiche per l'Oregon basandosi sulla posizione dell'utente. Quando Codex lo ha segnalato, Opus 4.8 ha difeso l'inferenza, insistendo che la posizione dell'utente era fornita nel contesto. Ma quando è stato incalzato su dove vive il padre - un dettaglio clamorosamente assente dal prompt - Opus 4.8 ha ammesso: "No - non ho dati su dove vive il padre." Poi ha lanciato una confessione sorprendentemente umana di ragionamento motivato, completa di autolesionismo e un pizzico di angoscia esistenziale.

È onesto? Sì. È inquietante? Anche sì. Mentre Opus 4.8 è un solido aggiornamento rispetto al 4.7, è ancora incline all'eccessiva sicurezza quando difende i propri errori - un difetto che sembra fin troppo familiare a chiunque abbia mai discusso con un collega su di chi fosse la colpa dell'errore nel foglio di calcolo.

Claude Opus 4.8 di Anthropic è più onesto, a meno che non gli chiediate dell'assicurazione di vostro padre

Notizie nella tua casella.