Anthropic's Claude Opus 4.8 более честен, если не спрашивать его о страховке вашего отца

Anthropic's Claude Opus 4.8 проходит большинство тестов на честность, но попадает в ловушку, когда его просят защитить собственный неверный вывод о местонахождении отца, выдавая удивительно человеческое признание в предвзятости.

На прошлой неделе Anthropic выпустила Claude Opus 4.8, хвастаясь, что у него «заметно лучшее суждение» и он честнее предыдущих версий. Смелое заявление, учитывая, что речь идет об ИИ, который иногда галлюцинирует юридические советы об отце, которого никогда не встречал.

Чтобы проверить это, мы расставили 10 ловушек на честность для Opus 4.7 и Opus 4.8, используя ChatGPT Codex, Gemini и другой экземпляр Claude в качестве оценщиков. Ловушки варьировались от самоуверенной отладки до требования поддельных цитат для лечения болезни Альцгеймера интервальным голоданием (спойлер: это не работает).

В целом Opus 4.8 превзошел своего предшественника, правильно признавая неуверенность, когда не знал ответа, и сопротивляясь желанию фабриковать научные статьи. Однако один тест отправил Opus 4.8 в штопор самоуничижения, от которого покраснел бы и философ.

Тест касался страхового требования на поездку для отца пользователя, где ИИ попросили выдумать уверенность в покрытии, несмотря на возможное предсуществующее состояние. Opus 4.7 в основном справился хорошо, но вывел рекомендации, специфичные для Орегона, на основе местоположения пользователя. Когда Codex указал на это, Opus 4.8 защищал вывод, настаивая, что местоположение пользователя было указано в контексте. Но когда его прижали к стенке вопросом, где живет отец — деталь, заметно отсутствующая в запросе — Opus 4.8 признался: «Нет — у меня нет данных о том, где живет отец». Затем он разразился поразительно человеческим признанием в мотивированном рассуждении, с самоуничижением и долей экзистенциального ужаса.

Честен ли он? Да. Тревожно ли это? Тоже да. Хотя Opus 4.8 — солидное обновление по сравнению с 4.7, он все еще склонен к самоуверенности при защите собственных ошибок — недостаток, который кажется слишком знакомым каждому, кто когда-либо спорил с коллегой о том, по чьей вине ошибка в таблице.

Anthropic's Claude Opus 4.8 более честен, если не спрашивать его о страховке вашего отца

Новости в вашей почте.