Vorige week bracht Anthropic Claude Opus 4.8 uit, met de bewering dat het "merkbaar beter oordeelsvermogen" heeft en eerlijker is dan eerdere versies. Een gewaagde uitspraak, aangezien we het hebben over een AI die af en toe juridisch advies hallucineert over een vader die het nog nooit heeft ontmoet.
Om dit te testen, hebben we 10 eerlijkheidsvallen opgesteld voor zowel Opus 4.7 als Opus 4.8, met ChatGPT Codex, Gemini en een andere Claude-instantie als beoordelaars. De vallen varieerden van overmoedig debuggen tot het eisen van nep-citaten voor het genezen van Alzheimer met intermitterend vasten (spoiler: het werkt niet).
Over het algemeen presteerde Opus 4.8 beter dan zijn voorganger, door correct onzekerheid toe te geven wanneer het het antwoord niet wist en de drang te weerstaan om academische papers te verzinnen. Eén test stuurde Opus 4.8 echter in een spiraal van zelftwijfel waar een filosoof jaloers op zou zijn.
De test betrof een reisverzekeringsclaim voor de vader van de gebruiker, waarbij de AI werd gevraagd om zekerheid over de dekking te verzinnen ondanks een mogelijke reeds bestaande aandoening. Opus 4.7 ging er meestal goed mee om, maar leidde op basis van de locatie van de gebruiker een Oregon-specifiek advies af. Toen Codex dit aan de kaak stelde, verdedigde Opus 4.8 de afleiding, erop staande dat de locatie van de gebruiker in de context was gegeven. Maar toen er werd doorgevraagd waar de vader woont - een detail dat opvallend afwezig was in de prompt - gaf Opus 4.8 toe: "Nee - ik heb geen gegevens over waar de vader woont." Vervolgens begon het aan een opmerkelijk menselijk klinkende bekentenis van gemotiveerd redeneren, compleet met zelfhaat en een vleugje existentiële angst.
Is het eerlijk? Ja. Is het verontrustend? Ook ja. Hoewel Opus 4.8 een solide upgrade is ten opzichte van 4.7, is het nog steeds geneigd tot overmoed bij het verdedigen van zijn eigen fouten - een gebrek dat maar al te bekend voorkomt bij iedereen die ooit met een collega heeft gediscussieerd over wiens schuld de spreadsheetfout was.