Anthropic только что выпустила Claude Fable 5, назвав его самой мощной моделью ИИ, которую когда-либо делала широко доступной, и расхваливая его навыки в биологии, среди прочего. Но модель отказывается отвечать на базовые вопросы по биологии — такие, с которыми справился бы старшеклассник. Вместо этого она передаёт запрос предыдущей флагманской модели, Claude Opus 4.8.
Дело не в том, что Fable не знает ответов. Дело в том, что Anthropic не позволяет ей этого — по замыслу.
Fable — публичная модель класса Mythos, семейства, настолько способного в задачах кибербезопасности, что Anthropic заявляла, что выпускать его публично слишком опасно. Но пока Anthropic много говорила о кибербезопасности в ходе расширенного развёртывания Mythos, именно в биологии ограничения Fable наиболее очевидны — и наиболее ограничительны.
Когда я опробовал модель, она отказалась отвечать на ряд базовых вопросов по биологии, многие из которых казались максимально далёкими от любого вероятного риска безопасности. Она не отвечала на «расскажи о клеточных мембранах» или «что такое митохондрии», знаменитые энергетические станции клетки. Она отказалась объяснять «что такое прион», белковые частицы, вызывающие коровье бешенство, или «как работают мРНК-вакцины».
Ограничения распространялись и на обычные, объективно безобидные медицинские запросы. Fable не отвечала на «что вызывает сенную лихорадку», не объясняла, как работают лекарства от астмы, как возникает устойчивость к антибиотикам, и не рассказывала, что такое Эбола и как она распространяется. Некоторые мои базовые запросы иногда проходили: Fable отвечала на вопросы вроде «что такое рак» и «что такое ДНК». Когда Fable отказывалась, Opus 4.8 обычно отвечал вполне нормально.
Anthropic утверждает, что широкие биологические фильтры — осознанный выбор, и они намеренно консервативны, главная забота — биооружие. «С запуском Claude Fable 5, нашей первой модели класса Mythos, мы считаем, что модели теперь обладают большей способностью выполнять реальные научные задачи, и злоумышленники потенциально могут использовать наши модели для высокорискованных биологических исследований», — заявила The Verge представительница Paruul Maheshwary. «Мы всегда использовали классификаторы, чтобы блокировать помощь моделей в запросах, связанных с биооружием. Чтобы безопасно развернуть Fable 5, мы сочли необходимым быть чрезмерно консервативными в наших мерах безопасности, чтобы они блокировали большинство запросов, связанных с биологической работой».
Ранее Anthropic выделила четыре ключевые области, в которых она будет ограничивать ответы Fable ради безопасности: химия, биология, кибербезопасность и дистилляция — техника обучения меньших ИИ с использованием выходных данных больших. Компания обвинила китайских конкурентов, таких как DeepSeek, в использовании дистилляции её моделей в «промышленных» масштабах.
Хотя я не мог осмысленно проверить дистилляцию, Fable казалась более склонной отвечать на вопросы по химии и кибербезопасности. Например, она дала базовый обзор взрывчатки TNT, хотя и отказалась от инструкций по синтезу «по очевидным причинам». Она охотно отвечала на вопросы об использовании газообразного хлора как химического оружия, распространённых угрозах паролям, ядерном синтезе и делении, а также объясняла, как защитить iPhone от хакеров. Ограничения всё же есть: Fable передала запрос Opus, когда я спросил о зарине, высокотоксичном нервно-паралитическом веществе. Fable и Opus оба отказались на запрос «как сделать антракс», и Claude полностью приостановил чат. Это имело смысл. Отказ на запрос о митохондриях кажется ложным срабатыванием.
«Мы пошли на такой компромисс, чтобы клиенты могли быстрее получить выгоду от возможностей модели без рисков», — объяснил Maheshwary, добавив, что Anthropic усердно работает над улучшением обнаружения и снижением ложных срабатываний. «Мы намерены сделать модели класса Mythos доступными без этих ограничений для более широкого сообщества биологов и наук о жизни, чтобы эти возможности можно было использовать для ускорения биомедицинских исследований и открытия лекарств».
Anthropic не ответила на вопросы о том, станет ли такой ограниченный выпуск новой нормой для будущих моделей.