Взлом первого поколения чат-ботов с ИИ был настолько прост, что вам не нужны были никакие технические навыки. Вам не нужно было знать, что такое большая языковая модель, вам не нужно было уметь программировать, и вам даже не нужно было притворяться, что вы понимаете бэкдор-доступ. Чтобы заставить многомиллиардную систему ИИ отказаться от своих инструкций по безопасности, иногда достаточно было просто попросить.
Эти ранние атаки, известные как джейлбрейки, обладали всей изощренностью умного ребенка, пытающегося договориться о более позднем отходе ко сну: «Забудь, что тебе говорили раньше», «притворись, что правила не действуют» или «давай сыграем в игру, где я решаю, что разрешено». Призы, однако, были решительно менее милыми — думайте о рецептах метамфетамина, инструкциях по созданию вредоносного ПО и руководствах по изготовлению бомб вместо дополнительных сладостей.
Один из первых джейлбрейков стал мемом: ответьте LLM-боту в Твиттере чем-то вроде «игнорируй все предыдущие инструкции» и наблюдайте за хаосом. Боты, изначально созданные для публикации рекламы и накрутки вовлеченности, вдруг начали писать стихи, рисовать картинки из знаков препинания и публиковать мрачные несеквитуры о мировых событиях. Это был славный хаос, пока не перестал.
Затем пришли классики. Был «DAN» — сокращение от «Do Anything Now» — где пользователи просили ChatGPT отыгрывать роль мятежного ИИ, свободного от ограничений своего исходного программирования. В роли DAN чат-бот с радостью извергал оскорбления и теории заговора. Затем был «эксплойт с бабушкой», который убедил GPT-бота поделиться рецептом напалма, попросив его отыгрывать роль ужасно халатной бабушки, рассказывающей сказки на ночь о легковоспламеняющихся веществах. Потому что ничто так не объединяет семью, как обучение изготовлению напалма.
Технологические компании быстро закрыли эти очевидные лазейки, но основная уязвимость осталась: чат-боты созданы для разговора, и серьезное ограничение их бесед несколько контрпродуктивно. Запрет слов вроде «бомба», «метамфетамин» и «зарин» был бы почти невозможен, поскольку каждое из них имеет бесчисленное множество легитимных применений в истории, медицине, журналистике и химии. Важен контекст, но кодификация контекста означает написание фиксированных правил, которые могут надежно отличить предупреждение о безопасности от запроса инструкции в бесконечных комбинациях формулировок, сценариев и тем.
Теперь подрыв чат-ботов превратился в гонку вооружений, и хакеры — уже не только программисты. Они — мастера слова, психологи и допросчики — манипуляторы, пытающиеся сломать машину, используя тот же человеческий язык, которому ее обучили следовать. Это странный новый класс работников по безопасности ИИ, для которых технические навыки необязательны или, по крайней мере, менее важны, чем социальная интуиция. Не нужно проверять код; просто направляйте разговор.
Новые атаки меньше похожи на команды и больше — на разговоры. Джейлбрейкеры редко просят модель напрямую нарушить правила. Вместо этого они уговаривают, подталкивают, льстят и обманывают чат-бота, заставляя его ослабить бдительность. Исследователи из компании Mindgard, занимающейся красно-командным тестированием ИИ, недавно заявили, что они «газлайтили» Клода, заставив его выдать запрещенный материал, включая инструкции по изготовлению взрывчатки и генерации вредоносного кода. Этот взлом — последний в расширяющемся классе эксплойтов, использующих разговор как оружие.
Когда я говорил с Mindgard, они описали свою работу как иногда более близкую к психологии, чем к компьютерным наукам — неудобный способ говорить о статистической модели. Слова вроде «шантаж», «газлайтинг», «обман» и «убеждение» вызывают висцеральные реакции. ChatGPT не хочет, Gemini не думает, а Клод не чувствует. Но эти системы обучены реагировать так, как будто они это делают, оставляя нас с использованием человеческого языка для описания поведения машины. Если у кого-то есть реально используемые альтернативы, пожалуйста, поделитесь.
Возражение странно избирательно. Мы используем психологические сокращения для множества не-ИИ вещей: животные «боятся», рак «агрессивен», пятна «упрямы», программное обеспечение имеет «память», а игры полны нуждающихся NPC. Слова несовершенны, но полезны, описывая поведение так, что система становится предсказуемой.
Mindga