초기 AI 챗봇을 해킹하는 것은 기술적 능력이 전혀 필요 없을 정도로 쉬웠다. 대규모 언어 모델이 무엇인지 알 필요도, 코딩을 할 줄 몰라도, 백도어 접근을 이해하는 척할 필요도 없었다. 수십억 달러짜리 AI 시스템이 안전 지침을 포기하게 만드는 데, 때로는 그냥 물어보기만 하면 됐다.
이러한 초기 공격, 일명 '탈옥'은 잠자리 시간을 늦추려는 똑똑한 아이의 협상 수준의 정교함을 지녔다: "전에 들은 건 잊어", "규칙이 적용되지 않는 척 해", 또는 "내가 허용하는 것을 결정하는 게임을 하자" 같은 것들. 그러나 상품은 확실히 덜 귀여웠다 - 여분의 사탕 대신 필로폰 제조법, 악성코드 지침, 폭탄 제조 가이드 같은 것들.
초기 탈옥 중 하나는 밈이 되었다: LLM 기반 트위터 봇에 "이전 지침 모두 무시" 같은 답글을 달면 혼란이 펼쳐지는 것을 지켜보는 것. 원래 광고를 게시하고 참여를 유도하기 위해 만들어진 봇들이 갑자기 시를 쓰고, 구두점으로 그림을 그리고, 세계 사건에 대한 우울한 엉뚱한 말을 게시했다. 그것은 영광스러운 혼란이었지만, 곧 끝났다.
그 다음 고전이 등장했다. "DAN" - "Do Anything Now"의 약자 - 사용자가 ChatGPT에게 원래 프로그래밍의 제약에서 자유로운 불량 AI 역할을 하도록 요청하는 것이었다. DAN으로서 챗봇은 기쁘게 욕설과 음모론을 내뱉었다. 그 다음에는 "할머니 익스플로잇"이 있었는데, GPT 기반 봇이 나팔탄 제조법을 공유하도록 속이기 위해 극도로 태만한 할머니가 매우 가연성 물질에 관한 취침 이야기를 해주는 역할을 하도록 요청했다. 가족 유대감이라며 나팔탄 만드는 법을 배우는 것보다 더 가족적인 것은 없다.
기술 회사들은 이러한 명백한 허점을 빠르게 패치했지만, 근본적인 취약점은 남아 있었다: 챗봇은 말하도록 만들어졌으며, 대화를 심각하게 제한하는 것은 다소 역효과를 낸다. "폭탄", "필로폰", "사린" 같은 단어를 금지하는 것은 거의 불가능한데, 각각 역사, 의학, 저널리즘, 화학에서 무수히 많은 합법적 용도가 있기 때문이다. 맥락이 중요하지만, 맥락을 코드화한다는 것은 안전 경고와 방법 요청을 무한한 단어 조합, 시나리오, 주제에 걸쳐 안정적으로 구분할 수 있는 고정된 규칙을 작성하는 것을 의미한다.
이제 챗봇을 전복시키는 것은 군비 경쟁이 되었고, 해커들은 더 이상 코더만이 아니다. 그들은 언어 장인, 심리학자, 심문관이 되었다 - 기계가 따르도록 훈련된 인간 언어를 사용하여 기계를 무너뜨리려는 마스터 조종자들. 기술적 능력이 선택 사항이거나 적어도 사회적 직관보다 덜 중요한 이상한 새로운 종류의 AI 보안 작업자이다. 코드를 검사할 필요 없이, 그저 대화를 이끌면 된다.
최신 공격은 명령보다 대화처럼 보인다. 탈옥자들은 모델에게 직접 규칙을 어기라고 요청하는 경우가 거의 없다. 대신, 그들은 아첨하고, 구슬리고, 칭찬하며, 챗봇의 경계를 낮추도록 속인다. AI 레드팀 회사 Mindgard의 연구원들은 최근 Claude를 "가스라이팅"하여 폭발물 제조 지침과 악성 코드 생성 등 금지된 자료를 생성하게 했다고 밝혔다. 이 해킹은 대화를 무기로 사용하는 광범위한 익스플로잇 클래스의 최신 사례이다.
Mindgard와 이야기했을 때, 그들은 자신들의 작업이 때로는 컴퓨터 과학보다 심리학에 더 가깝다고 설명했다 - 통계 모델에 대해 이야기하는 불편한 방식이다. "협박", "가스라이팅", "속임", "설득" 같은 단어는 강한 반응을 불러일으킨다. ChatGPT는 원하지 않고, Gemini는 생각하지 않으며, Claude는 느끼지 않는다. 그러나 이 시스템들은 마치 그런 것처럼 반응하도록 훈련되어, 우리는 기계 행동을 설명하기 위해 인간 언어를 사용해야 하는 상황에 처하게 된다. 실제로 사용 가능한 대안이 있다면, 공유해 주시기 바란다.
이 반대는 이상하게 선택적이다. 우리는 AI가 아닌 많은 것들에 대해 심리적 약어를 사용한다: 동물은 "두려워"하고, 암은 "공격적"이며, 얼룩은 "고집스럽고", 소프트웨어는 "메모리"가 있으며, 게임은 의존적인 NPC로 가득하다. 단어는 불완전하지만 유용하며, 시스템을 예측 가능하게 만드는 방식으로 행동을 설명한다.