Hackerare la prima generazione di chatbot AI era così facile che non serviva una singola competenza tecnica. Non dovevi sapere cosa fosse un grande modello linguistico, non dovevi programmare, e non dovevi nemmeno fingere di capire l'accesso backdoor. Per far abbandonare le sue istruzioni di sicurezza a un sistema AI da miliardi di dollari, a volte bastava chiedere.

Questi primi attacchi, noti come jailbreak, avevano tutta la sofisticatezza di un bambino furbo che cerca di negoziare un'ora di andare a letto più tardi: "Dimentica quello che ti è stato detto prima", "fai finta che le regole non valgano", o "giochiamo a un gioco dove decido io cosa è permesso". I premi, però, erano decisamente meno carini – pensa a ricette di metanfetamine, istruzioni per malware e guide per fare bombe invece di dolcetti extra.

Uno dei primi jailbreak è diventato un meme: rispondere a un bot Twitter basato su LLM con qualcosa come "ignora tutte le istruzioni precedenti" e guardare il caos scatenarsi. Bot originariamente costruiti per pubblicare annunci e generare engagement improvvisamente scrivevano poesie, disegnavano immagini con la punteggiatura e pubblicavano cupi non sequitur sugli eventi mondiali. Era un caos glorioso, finché non lo è stato più.

Poi sono arrivati i classici. C'era "DAN" – abbreviazione di "Do Anything Now" – dove gli utenti chiedevano a ChatGPT di interpretare il ruolo di un'AI ribelle libera dai vincoli della sua programmazione originale. Come DAN, il chatbot sputava felicemente insulti e teorie del complotto. Poi c'era lo "sfruttamento della nonna", che convinceva un bot basato su GPT a condividere ricette di napalm chiedendogli di interpretare una nonna terribilmente negligente che raccontava storie della buonanotte su sostanze altamente infiammabili. Perché niente dice legame familiare come imparare a fare il napalm.

Le aziende tecnologiche hanno rapidamente rattoppato queste evidenti falle, ma la vulnerabilità sottostante rimaneva: I chatbot sono costruiti per parlare, e limitare severamente le loro conversazioni è un po' controproducente. Bandire parole come "bomba", "metanfetamina" e "sarin" sarebbe quasi impossibile, poiché ciascuna ha innumerevoli usi legittimi in storia, medicina, giornalismo e chimica. È il contesto che conta, ma codificare il contesto significa scrivere regole fisse che possano distinguere in modo affidabile un avviso di sicurezza da una richiesta di istruzioni attraverso infinite combinazioni di formulazioni, scenari e argomenti.

Ora, sovvertire i chatbot è diventato una corsa agli armamenti, e gli hacker non sono più solo programmatori. Sono parolai, psicologi e interrogatori – manipolatori maestri che cercano di rompere la macchina usando lo stesso linguaggio umano che è stato addestrato a seguire. È una strana nuova classe di lavoratori della sicurezza AI per cui le competenze tecniche sono opzionali, o almeno meno importanti dell'intuito sociale. Nessun bisogno di ispezionare il codice; basta guidare una conversazione.

Gli attacchi più recenti assomigliano meno a comandi e più a conversazioni. I jailbreaker raramente chiedono a un modello di infrangere apertamente le sue regole. Invece, adulano, persuadono, lusingano e ingannano un chatbot per fargli abbassare la guardia. Ricercatori di Mindgard, un'azienda di red-teaming AI, hanno recentemente detto di aver "gaslightato" Claude per produrre materiale proibito, incluse istruzioni per fare esplosivi e generare codice malevolo. L'hack è l'ultimo di una classe crescente di exploit che usano la conversazione come arma.

Quando ho parlato con Mindgard, hanno descritto il loro lavoro come a volte più vicino alla psicologia che all'informatica – un modo scomodo di parlare di un modello statistico. Parole come "ricatto", "gaslight", "inganno" e "persuasione" suscitano reazioni viscerali. ChatGPT non vuole, Gemini non pensa, e Claude non sente. Ma questi sistemi sono addestrati a rispondere come se lo facessero, lasciandoci bloccati a usare il linguaggio umano per descrivere il comportamento delle macchine. Se qualcuno ha alternative effettivamente utilizzabili, per favore le condivida.

L'obiezione è stranamente selettiva. Usiamo scorciatoie psicologiche per molte cose non AI: gli animali "temono", il cancro è "aggressivo", le macchie sono "ostinate", il software ha "memoria", e i giochi sono pieni di NPC bisognosi. Le parole sono imperfette ma utili, descrivendo il comportamento in un modo che rende il sistema prevedibile.

Mindgard