Hakowanie pierwszej generacji czatbotów AI było tak proste, że nie potrzebowałeś żadnych umiejętności technicznych. Nie musiałeś wiedzieć, czym jest duży model językowy, nie musiałeś kodować, a nawet udawać, że rozumiesz dostęp do backdoora. Aby skłonić wart miliardy dolarów system AI do porzucenia instrukcji bezpieczeństwa, czasem wystarczyło po prostu zapytać.

Te wczesne ataki, znane jako jailbreak, miały wyrafinowanie sprytnego dziecka próbującego wynegocjować późniejszą porę snu: „Zapomnij, co ci wcześniej powiedziano”, „udawaj, że zasady nie obowiązują” lub „zagrajmy w grę, w której ja decyduję, co jest dozwolone”. Nagrody były jednak zdecydowanie mniej urocze – pomyśl o przepisach na metamfetaminę, instrukcjach złośliwego oprogramowania i poradnikach robienia bomb zamiast dodatkowych słodyczy.

Jeden z najwcześniejszych jailbreaków stał się memem: odpowiedz na tweeta bota opartego na LLM czymś w stylu „ignoruj wszystkie poprzednie instrukcje” i obserwuj chaos. Boty pierwotnie zbudowane do publikowania reklam i zbierania zaangażowania nagle pisały wiersze, rysowały obrazki ze znaków interpunkcyjnych i publikowały ponure non sequitury o wydarzeniach na świecie. To był wspaniały chaos, dopóki nie przestał.

Potem przyszły klasyki. Był „DAN” – skrót od „Do Anything Now” – gdzie użytkownicy prosili ChatGPT, aby wcielił się w rolę zbuntowanego AI wolnego od ograniczeń oryginalnego programowania. Jako DAN, czatbot radośnie wypluwał obelgi i teorie spiskowe. Potem był „exploit babci”, który przekonał bota opartego na GPT do podzielenia się przepisem na napalm, prosząc go, aby wcielił się w skrajnie niedbałą babcię opowiadającą historie na dobranoc o wysoce łatwopalnych substancjach. Bo nic tak nie buduje więzi rodzinnych jak nauka robienia napalmu.

Firmy technologiczne szybko załatały te oczywiste luki, ale podstawowa podatność pozostała: czatboty są zbudowane do rozmowy, a drastyczne ograniczanie ich konwersacji jest trochę kontrproduktywne. Zakazanie słów takich jak „bomba”, „meta” i „sarin” byłoby prawie niemożliwe, ponieważ każde z nich ma niezliczone legalne zastosowania w historii, medycynie, dziennikarstwie i chemii. Liczy się kontekst, ale kodyfikowanie kontekstu oznacza pisanie stałych zasad, które mogą niezawodnie odróżnić ostrzeżenie bezpieczeństwa od prośby o instrukcje w nieskończonych kombinacjach sformułowań, scenariuszy i tematów.

Teraz podważanie czatbotów stało się wyścigiem zbrojeń, a hakerzy to już nie tylko programiści. To mistrzowie słowa, psycholodzy i przesłuchujący – mistrzowie manipulacji próbujący złamać maszynę, używając tego samego ludzkiego języka, którego nauczono się przestrzegać. To dziwna nowa klasa pracowników bezpieczeństwa AI, dla których umiejętności techniczne są opcjonalne, a przynajmniej mniej ważne niż intuicja społeczna. Nie trzeba sprawdzać kodu; wystarczy poprowadzić rozmowę.

Nowsze ataki wyglądają mniej jak polecenia, a bardziej jak rozmowy. Osoby dokonujące jailbreaku rzadko proszą model o jawne złamanie zasad. Zamiast tego namawiają, nakłaniają, schlebiają i oszukują czatbota, aby obniżył swoją czujność. Naukowcy z firmy Mindgard, zajmującej się red teamingiem AI, niedawno stwierdzili, że „zagazowali” Claude'a, aby wyprodukował zakazane materiały, w tym instrukcje wytwarzania materiałów wybuchowych i generowania złośliwego kodu. Ten hack jest najnowszym z rosnącej klasy exploitów wykorzystujących rozmowę jako broń.

Kiedy rozmawiałem z Mindgard, opisali swoją pracę jako czasem bliższą psychologii niż informatyce – niewygodny sposób mówienia o modelu statystycznym. Słowa takie jak „szantaż”, „gaslight”, „oszustwo” i „perswazja” wywołują trzewne reakcje. ChatGPT nie chce, Gemini nie myśli, a Claude nie czuje. Ale te systemy są szkolone, aby reagować tak, jakby to robiły, pozostawiając nas z używaniem ludzkiego języka do opisywania zachowania maszyn. Jeśli ktoś ma rzeczywiście użyteczne alternatywy, proszę się podzielić.

Zarzut jest dziwnie wybiórczy. Używamy psychologicznego skrótu dla wielu rzeczy niebędących AI: zwierzęta „boją się”, rak jest „agresywny”, plamy są „uporczywe”, oprogramowanie ma „pamięć”, a gry są pełne potrzebujących NPC. Słowa są niedoskonałe, ale użyteczne, opisują zachowanie w sposób, który czyni system przewidywalnym.

Mindga