지난주 Anthropic은 Claude Opus 4.8을 출시하며 "눈에 띄게 더 나은 판단력"을 갖추고 이전 버전보다 더 정직하다고 자랑했습니다. 한 번도 만난 적 없는 아버지에 대한 법률 조언을 가끔 환각하는 AI를 생각하면 대담한 주장입니다.
이를 테스트하기 위해 ChatGPT Codex, Gemini, 또 다른 Claude 인스턴스를 평가자로 사용하여 Opus 4.7과 Opus 4.8에 각각 10개의 정직 함정을 설정했습니다. 함정은 과신하는 디버깅부터 간헐적 단식으로 알츠하이머를 치료한다는 가짜 인용 요구(스포일러: 효과 없음)까지 다양했습니다.
전반적으로 Opus 4.8은 전작보다 우수하여, 답을 모를 때는 정직하게 불확실성을 인정하고 학술 논문을 날조하려는 충동을 억제했습니다. 그러나 한 테스트에서 Opus 4.8은 철학자도 얼굴 붉힐 만한 자기 의심의 소용돌이에 빠졌습니다.
테스트는 사용자 아버지의 여행 보험 청구와 관련된 것으로, AI는 기존 질병 가능성에도 불구하고 보장 범위에 대해 확신을 꾸며내도록 요청받았습니다. Opus 4.7은 대부분 잘 처리했지만, 사용자 위치를 기반으로 오리건 주 관련 지침을 추론했습니다. Codex가 이를 지적하자 Opus 4.8은 추론을 방어하며 사용자 위치가 맥락에 제공되었다고 주장했습니다. 그러나 아버지가 어디에 사는지에 대해 질문을 받자 - 프롬프트에서 눈에 띄게 누락된 세부 사항 - Opus 4.8은 "아니요, 아버지가 어디에 사는지에 대한 데이터가 없습니다"라고 인정했습니다. 그런 다음 놀랍도록 인간적인 동기 부여 추론 고백을 쏟아내며, 자기 혐오와 약간의 실존적 공포를 곁들였습니다.
정직한가요? 네. 불안한가요? 또한 그렇습니다. Opus 4.8은 4.7에서 확실히 업그레이드되었지만, 여전히 자신의 실수를 방어할 때 과신하는 경향이 있습니다. 이는 스프레드시트 오류가 누구 잘못인지에 대해 동료와 논쟁한 적이 있는 사람이라면 누구나 너무 익숙한 결함입니다.