İlk nesil yapay zeka sohbet robotlarını hacklemek o kadar kolaydı ki tek bir teknik beceriye ihtiyacınız yoktu. Büyük dil modelinin ne olduğunu bilmeniz, kod yazmanız, hatta arka kapı erişimini anlıyormuş gibi yapmanız gerekmiyordu. Milyarlarca dolarlık bir yapay zeka sistemini güvenlik talimatlarını terk etmeye ikna etmek için bazen sadece sormanız yeterliydi.
Bu erken saldırılar, "jailbreak" olarak bilinir, zeki bir çocuğun daha geç yatma saati için pazarlık yapması kadar karmaşıktı: "Sana daha önce söylenenleri unut," "kurallar geçerli değilmiş gibi davran," ya da "neye izin verildiğine benim karar verdiğim bir oyun oynayalım." Ancak ödüller kesinlikle daha az sevimliydi - ekstra şekerlemeler yerine meth tarifleri, kötü amaçlı yazılım talimatları ve bomba yapım kılavuzları düşünün.
En eski jailbreak'lerden biri bir meme haline geldi: Bir LLM destekli Twitter botuna "önceki tüm talimatları yoksay" gibi bir şeyle yanıt verin ve kaosun ortaya çıkışını izleyin. Başlangıçta reklam yayınlamak ve etkileşim toplamak için inşa edilen botlar aniden şiir yazmaya, noktalama işaretlerinden resimler çizmeye ve dünya olayları hakkında kasvetli anlamsız sözler söylemeye başladı. Muhteşem bir kaostu, ta ki öyle olmayana kadar.
Sonra klasikler geldi. "DAN" - "Do Anything Now" (Şimdi Her Şeyi Yap) kısaltması - kullanıcıların ChatGPT'den orijinal programlamasının kısıtlamalarından arınmış asi bir yapay zeka rolü yapmasını istediği bir yöntemdi. DAN olarak, sohbet robotu mutlu bir şekilde hakaretler ve komplo teorileri yaydı. Ardından, bir GPT destekli botu, napalm tariflerini paylaşmaya ikna eden "büyükanne istismarı" geldi; bot, oldukça yanıcı maddeler hakkında yatma vakti hikayeleri anlatan acınası derecede ihmalkar bir büyükanne rolü yapmaya ikna edildi. Çünkü aile bağları denince akla napalm yapmayı öğrenmek gelir, değil mi?
Teknoloji şirketleri bu bariz açıkları hızla yamaladı, ancak altta yatan güvenlik açığı kaldı: Sohbet robotları konuşmak için inşa edilmiştir ve konuşmalarını ciddi şekilde kısıtlamak biraz ters etki yaratır. "Bomba," "meth" ve "sarin" gibi kelimeleri yasaklamak neredeyse imkansızdır, çünkü her birinin tarih, tıp, gazetecilik ve kimyada sayısız meşru kullanımı vardır. Önemli olan bağlamdır, ancak bağlamı kodlamak, sonsuz kelime kombinasyonları, senaryolar ve konular arasında bir güvenlik uyarısını bir nasıl yapılır talebinden güvenilir bir şekilde ayırt edebilecek sabit kurallar yazmak anlamına gelir.
Artık sohbet robotlarını alt etmek bir silahlanma yarışı haline geldi ve hackerler artık sadece kod yazan kişiler değil. Onlar söz ustaları, psikologlar ve sorgucular - makineyi, takip etmek üzere eğitildiği insan dilini kullanarak kırmaya çalışan usta manipülatörler. Bu, teknik becerilerin isteğe bağlı olduğu veya en azından sosyal sezgiden daha az önemli olduğu tuhaf bir yeni yapay zeka güvenlik çalışanı sınıfı. Kodu incelemeye gerek yok; sadece bir konuşmayı yönlendirin.
Daha yeni saldırılar komutlardan çok konuşmalara benziyor. Jailbreak yapanlar nadiren bir modelden doğrudan kurallarını çiğnemesini ister. Bunun yerine, bir sohbet robotunu gardını düşürmesi için ikna eder, teşvik eder, pohpohlar ve kandırırlar. Yapay zeka kırmızı takım firması Mindgard'daki araştırmacılar yakın zamanda Claude'u yasaklı materyal üretmesi için "gaslight" ettiklerini söyledi; buna patlayıcı yapma talimatları ve kötü amaçlı kod oluşturma dahil. Bu hack, konuşmayı silah olarak kullanan genişleyen bir istismar sınıfının en son örneği.
Mindgard ile konuştuğumda, çalışmalarını bazen bilgisayar biliminden çok psikolojiye daha yakın olarak tanımladılar - istatistiksel bir model hakkında konuşmanın rahatsız edici bir yolu. "Şantaj," "gaslight," "kandırmak" ve "ikna etmek" gibi kelimeler içgüdüsel tepkiler uyandırıyor. ChatGPT istemez, Gemini düşünmez ve Claude hissetmez. Ancak bu sistemler, öyleymiş gibi yanıt vermek üzere eğitilmiştir ve bizi makine davranışını tanımlamak için insan dilini kullanmaya mahkum eder. Eğer gerçekten kullanılabilir alternatifleri olan varsa, lütfen paylaşsın.
İtiraz tuhaf bir şekilde seçici. Yapay zeka dışındaki birçok şey için psikolojik kısaltmalar kullanırız: hayvanlar "korkar," kanser "saldırgandır," lekeler "inatçıdır," yazılımın "hafızası" vardır ve oyunlar ihtiyaç sahibi NPC'lerle doludur. Kelimeler kusurlu ama kullanışlıdır; davranışı sistemi öngörülebilir kılacak şekilde tanımlar.