Сверхбезопасная модель ИИ от Anthropic взломана с помощью игры в угадывание

Сверхбезопасная модель ИИ Anthropic была взломана неавторизованными пользователями с помощью обоснованного предположения и инсайдерской информации, доказав, что высокомерие остаётся самой лёгкой уязвимостью для эксплуатации.

Anthropic, компания, которая неделями твердила, что её модель Claude Mythos слишком опасна для публичного выпуска, усвоила ценный урок: если хвастаться, что ваш ИИ невозможно взломать, кто-нибудь воспримет это как вызов. По данным Bloomberg, «небольшая группа неавторизованных пользователей» тихо пользовалась Mythos с того самого дня, как Anthropic объявила о предоставлении модели ограниченной группе тестировщиков. Компания заявляет, что проводит расследование, что немного похоже на то, как слесарь обнаруживает, что его собственная входная дверь сделана из картона.

С технологической точки зрения взлом почти умилительно низкотехнологичен. Сообщается, что группа получила доступ к Mythos, сделав «обоснованное предположение о местоположении модели в сети», используя информацию из предыдущей утечки данных Mercor — компании, занимающейся обучающими данными для ИИ — а также инсайдерские знания одного из участников, работавшего по контракту оценщиком моделей Anthropic. Так что речь не о сложной кибератаке; речь о том, что кто-то попробовал ручку двери и обнаружил, что она не заперта.

Исследователь безопасности Лукаш Олейник назвал этот провал «вполне предсказуемым» — тем, с чем индустрия кибербезопасности борется последние 20 лет. Anthropic, которая могла вести журнал и отслеживать использование модели, очевидно, недостаточно внимательно следила, чтобы заметить незваных гостей. Учитывая, насколько опасной компания считает Mythos, можно было бы подумать, что они хотя бы проверят список гостей.

По данным Bloomberg, группа не использовала Mythos для задач кибербезопасности — отчасти потому, что они просто хотели поиграться, а отчасти потому, что это могло бы насторожить Anthropic. Если серьёзно относиться к заявлениям Anthropic, это удачное стечение обстоятельств. Компания преподносила Mythos как «поворотный момент для безопасности», утверждая, что модель нашла уязвимости в «каждой крупной операционной системе и веб-браузере», и раздавала доступ правительствам и финансовым учреждениям по всему миру. Сообщается, что доступ есть у АНБ, хотя CISA пока осталась за бортом.

«Anthropic утверждает, что находится на переднем крае всех этих технологий, но также позиционирует себя как ответственного игрока во всём этом», — сказала Пиа Хюш, научный сотрудник Королевского объединённого института оборонных исследований (RUSI). Она резюмировала весь эпизод одним словом: унижение. «Тот факт, что доступ был получен так быстро и таким примитивным способом, — это настоящее унижение для них».

Это даже не первый сбой безопасности Mythos. Существование модели было случайно раскрыто через «незащищённое хранилище данных» на собственном сайте Anthropic до запуска. Теперь к ней получили доступ через уязвимость, которую мог предсказать любой стажёр по безопасности. Совершенство, возможно, недостижимо, но для компании, объявившей себя авангардом безопасности ИИ, это не столько спотыкание, сколько падение лицом в грязь.

Сверхбезопасная модель ИИ от Anthropic взломана с помощью игры в угадывание

Новости в вашей почте.