Anthropic의 초강력 보안 AI 모델, 추측 게임으로 해킹당하다

Anthropic이 '너무 위험해서 출시할 수 없다'고 주장한 AI 모델이 교육받은 추측과 내부 정보를 통해 승인되지 않은 사용자에게 접근당했으며, 이는 교만이 여전히 가장 쉽게 악용되는 취약점임을 증명했습니다.

Anthropic, 몇 주 동안 자사의 Claude Mythos 모델이 공개 출시하기에는 너무 위험하다고 말해온 회사가, 귀중한 교훈을 얻었습니다: 당신의 AI가 해킹 불가능하다고 자랑하면, 누군가는 그것을 도전으로 받아들일 것입니다. Bloomberg에 따르면, "소수의 승인되지 않은 사용자" 그룹이 Anthropic이 모델을 선별된 테스터 그룹과 공유한다고 발표한 날부터 조용히 Mythos를 즐겨왔습니다. 회사는 조사 중이라고 밝혔는데, 이는 마치 자물쇠 제조공이 자신의 현관문이 판지로 만들어졌다는 것을 발견한 것과 같습니다.

기술적 관점에서 보면, 이 침해는 거의 귀여울 정도로 저기술적입니다. 그룹은 "모델의 온라인 위치에 대한 교육받은 추측"을 통해 Mythos에 접근했다고 합니다. 이는 AI 훈련 데이터를 만드는 회사인 Mercor의 이전 침해 정보와 한 구성원이 Anthropic 모델을 평가하는 계약 작업에서 얻은 내부 정보를 사용한 것입니다. 따라서 우리는 정교한 사이버 강도 사건을 이야기하는 것이 아닙니다. 누군가 문손잡이를 돌려보니 잠기지 않은 것을 발견한 것입니다.

보안 연구원 Lukasz Olejnik은 이 실패를 "완전히 상상 가능한" 일이라고 설명했습니다. 사이버 보안 업계가 지난 20년 동안 다루어 온 종류의 일입니다. 모델 사용을 기록하고 추적할 수 있었던 Anthropic은 초대받지 않은 손님을 알아차릴 만큼 면밀히 모니터링하지 않았던 것으로 보입니다. 회사가 Mythos가 얼마나 위험하다고 주장하는지를 고려할 때, 적어도 게스트 목록은 확인했어야 한다고 생각됩니다.

Bloomberg의 설명에 따르면, 그룹은 사이버 보안 작업을 위해 Mythos를 사용하지 않았습니다. 부분적으로는 그냥 장난치고 싶었기 때문이고, 부분적으로는 그렇게 하면 Anthropic이 눈치챌 수 있었기 때문입니다. Anthropic의 메시지를 진지하게 받아들인다면, 그것은 운이 좋은 일입니다. 회사는 Mythos를 "보안에 있어 분수령이 되는 순간"으로 규정하며, "모든 주요 운영 체제와 웹 브라우저에서 취약점을 발견했다"고 주장하고 전 세계 정부와 금융 기관에 접근 권한을 나눠주고 있습니다. NSA는 접근 권한을 받았다고 하지만, CISA는 아직 제외되었습니다.

"Anthropic은 이러한 모든 기술의 절대적 최전선에 있다고 주장하지만, 동시에 이 모든 것에서 책임 있는 행위자로 자리매김합니다,"라고 Royal United Services Institute (RUSI)의 연구원 Pia Hüsch가 말했습니다. 그녀는 이 모든 사건을 한 단어로 요약했습니다: 굴욕. "이것이 이렇게 빨리, 그리고 이렇게 정교하지 않은 시도를 통해 승인되지 않은 수단으로 접근되었다는 사실은 그들에게 정말 굴욕입니다."

이것은 Mythos의 첫 번째 보안 문제조차 아닙니다. 모델의 존재는 출시 전에 Anthropic 자체 웹사이트의 "보안되지 않은 데이터 저장소"를 통해 우연히 드러났습니다. 이제는 어떤 보안 인턴이라도 예측할 수 있었던 취약점을 통해 접근되었습니다. 완벽함은 불가능할지 모르지만, 스스로를 AI 안전의 선봉장으로 임명한 회사에게 이것은 비틀거림이라기보다는 얼굴을 바닥에 박는 것입니다.

Anthropic의 초강력 보안 AI 모델, 추측 게임으로 해킹당하다

받은 편지함에 뉴스를.