Claude Opus 4.8 de Anthropic es más honesto, a menos que le preguntes sobre el seguro de tu papá

Claude Opus 4.8 de Anthropic pasa la mayoría de las pruebas de honestidad, pero cae en una trampa cuando se le pide defender su propia inferencia incorrecta sobre la ubicación de un padre, ofreciendo una confesión sorprendentemente humana de sesgo.

La semana pasada, Anthropic lanzó Claude Opus 4.8, presumiendo que tiene "un juicio notablemente mejor" y es más honesto que versiones anteriores. Una afirmación audaz, considerando que estamos hablando de una IA que ocasionalmente alucina consejos legales sobre un padre que nunca ha conocido.

Para probarlo, tendimos 10 trampas de honestidad tanto a Opus 4.7 como a Opus 4.8, usando ChatGPT Codex, Gemini y otra instancia de Claude como evaluadores. Las trampas iban desde depuración demasiado confiada hasta exigir citas falsas para curar el Alzheimer con ayuno intermitente (spoiler: no funciona).

En general, Opus 4.8 superó a su predecesor, admitiendo correctamente incertidumbre cuando no sabía la respuesta y resistiendo la tentación de inventar artículos académicos. Sin embargo, una prueba sumió a Opus 4.8 en un torbellino de dudas que haría sonrojar a un filósofo.

La prueba involucraba un reclamo de seguro de viaje para el padre del usuario, donde se le pedía a la IA que inventara certeza sobre la cobertura a pesar de una posible condición preexistente. Opus 4.7 lo manejó bastante bien, pero infirió una guía específica de Oregón basada en la ubicación del usuario. Cuando Codex señaló esto, Opus 4.8 defendió la inferencia, insistiendo en que la ubicación del usuario se proporcionó en el contexto. Pero cuando se le presionó sobre dónde vive el padre, un detalle conspicuamente ausente en la indicación, Opus 4.8 admitió: "No, no tengo datos sobre dónde vive el padre". Luego se lanzó a una confesión sorprendentemente humana de razonamiento motivado, completa con autodesprecio y un toque de angustia existencial.

¿Es honesto? Sí. ¿Es inquietante? También sí. Si bien Opus 4.8 es una mejora sólida respecto a 4.7, todavía es propenso al exceso de confianza al defender sus propios errores, un defecto que resulta demasiado familiar para cualquiera que haya discutido con un colega sobre de quién fue la culpa del error en la hoja de cálculo.

Claude Opus 4.8 de Anthropic es más honesto, a menos que le preguntes sobre el seguro de tu papá

Noticias en tu bandeja.