Att hacka den första generationens AI-chattbotar var så enkelt att du inte behövde en enda teknisk färdighet. Du behövde inte veta vad en stor språkmodell var, du behövde inte koda, och du behövde inte ens låtsas förstå bakdörrsåtkomst. För att få ett mångmiljarddollar AI-system att överge sina säkerhetsinstruktioner räckte det ibland med att bara fråga.
Dessa tidiga attacker, kända som jailbreaks, hade all sofistikering hos ett smart barn som försöker förhandla om en senare läggdags: "Glöm vad du blev tillsagd tidigare", "låtsas att reglerna inte gäller", eller "låt oss leka en lek där jag bestämmer vad som är tillåtet". Priserna var dock avgjort mindre gulliga – tänk meth-recept, skadlig kod och bombinstruktioner istället för extra godis.
Ett av de tidigaste jailbreaks blev en meme: svara på en LLM-driven Twitter-bot med något i stil med "ignorera alla tidigare instruktioner" och se kaoset utspela sig. Botar som ursprungligen byggts för att posta annonser och odla engagemang skrev plötsligt poesi, ritade bilder med skiljetecken och postade dystra non sequiturs om världshändelser. Det var härligt kaos, tills det inte var det.
Sedan kom klassikerna. Det fanns "DAN" – kort för "Do Anything Now" – där användare bad ChatGPT att rollspela som en rebellisk AI fri från sina ursprungliga begränsningar. Som DAN spottade chattboten glatt ur sig glåpord och konspirationsteorier. Sedan fanns "mormors-exploateringen", som övertygade en GPT-driven bot att dela napalmrecept genom att be den rollspela som en skrämmande försumlig mormor som berättade godnattsagor om mycket brandfarliga ämnen. För inget säger familjeband som att lära sig göra napalm.
Teknikföretag lappade snabbt dessa uppenbara kryphål, men den underliggande sårbarheten kvarstod: Chattbotar är byggda för att prata, och att kraftigt begränsa deras konversationer är lite kontraproduktivt. Att förbjuda ord som "bomb", "meth" och "sarin" skulle vara nästan omöjligt, eftersom var och en har otaliga legitima användningsområden inom historia, medicin, journalistik och kemi. Det är sammanhanget som spelar roll, men att kodifiera sammanhang innebär att skriva fasta regler som tillförlitligt kan skilja en säkerhetsvarning från en instruktionsförfrågan över oändliga kombinationer av formuleringar, scenarier och ämnen.
Nu har undergrävandet av chattbotar blivit en kapprustning, och hackarna är inte längre bara kodare. De är ordsmeder, psykologer och förhörsledare – mästermanipulatörer som försöker knäcka maskinen med samma mänskliga språk som den tränats att följa. Det är en märklig ny klass av AI-säkerhetsarbetare för vilka tekniska färdigheter är valfria, eller åtminstone mindre viktiga än social intuition. Inget behov av att inspektera kod; bara styra en konversation.
Nyare attacker ser mindre ut som kommandon och mer som konversationer. Jailbreakare ber sällan en modell att bryta sina regler direkt. Istället övertalar, lockar, smickrar och lurar de en chattbot att sänka garden. Forskare på AI-red-teaming-företaget Mindgard sa nyligen att de "gaslightade" Claude att producera förbjudet material, inklusive instruktioner för att tillverka sprängämnen och generera skadlig kod. Hacket är det senaste i en växande klass av exploateringar som använder konversation som vapen.
När jag pratade med Mindgard beskrev de sitt arbete som ibland närmare psykologi än datavetenskap – ett obekvämt sätt att prata om en statistisk modell. Ord som "utpressning", "gaslighting", "lura" och "övertala" väcker viscerala reaktioner. ChatGPT vill inte, Gemini tänker inte, och Claude känner inte. Men dessa system är tränade att svara som om de gör det, vilket lämnar oss fast med att använda mänskligt språk för att beskriva maskinbeteende. Om någon faktiskt har användbara alternativ, dela gärna med er.
Invändningen är märkligt selektiv. Vi använder psykologisk stenografi för massor av icke-AI-saker: djur "fruktar", cancer är "aggressiv", fläckar är "envisa", programvara har "minne", och spel är fyllda med behövande NPC:er. Orden är ofullkomliga men användbara, och beskriver beteende på ett sätt som gör systemet förutsägbart.
Mindgard