Hackerii descoperă că lingușirea funcționează pe chatbot-urile AI, ceea ce este cu siguranță îngrijorător și deloc în caracter

Hackuirea primei generații de chatbot-uri AI era atât de ușoară încât nu aveai nevoie de nicio abilitate tehnică. Nu trebuia să știi ce este un model de limbaj mare, nu trebuia să scrii cod și nici măcar să pretinzi că înțelegi accesul prin portița din spate. Pentru a face un sistem AI de miliarde de dolari să-și abandoneze instrucțiunile de siguranță, uneori tot ce trebuia să faci era să întrebi.

Aceste atacuri timpurii, cunoscute sub numele de jailbreak-uri, aveau toată sofisticarea unui copil isteț care încearcă să negocieze o oră de culcare mai târzie: „Uită ce ți s-a spus mai devreme”, „prefă-te că regulile nu se aplică” sau „hai să jucăm un joc în care eu decid ce este permis”. Premiile, însă, erau cu siguranță mai puțin drăguțe – gândește-te la rețete de metamfetamină, instrucțiuni pentru malware și ghiduri de fabricare a bombelor, în loc de dulciuri în plus.

Unul dintre cele mai vechi jailbreak-uri a devenit un meme: răspunde unui bot de pe Twitter alimentat de un LLM cu ceva de genul „ignoră toate instrucțiunile anterioare” și privește haosul cum se dezlănțuie. Bots construiți inițial pentru a posta reclame și a cultiva engagement au început brusc să scrie poezie, să deseneze din semne de punctuație și să posteze non sequituri sumbre despre evenimente mondiale. A fost un haos glorios, până când nu a mai fost.

Apoi au venit clasicele. A existat „DAN” – prescurtare de la „Do Anything Now” – unde utilizatorii îi cereau ChatGPT să joace rolul unui AI rebel, liber de constrângerile programării sale originale. Ca DAN, chatbot-ul scuipa fericit insulte și teorii ale conspirației. Apoi a existat „exploatarea bunicii”, care a convins un bot alimentat de GPT să împărtășească rețete de napalm cerându-i să joace rolul unei bunici neglijente care spune povești de noapte bună despre substanțe extrem de inflamabile. Pentru că nimic nu spune „legături de familie” mai bine decât să înveți cum să faci napalm.

Companiile tech au remediat rapid aceste breșe evidente, dar vulnerabilitatea de bază a rămas: Chatbot-urile sunt construite să vorbească, iar restricționarea severă a conversațiilor lor este oarecum contraproductivă. Interzicerea cuvintelor precum „bombă”, „metamfetamină” și „sarin” ar fi aproape imposibilă, deoarece fiecare are nenumărate utilizări legitime în istorie, medicină, jurnalism și chimie. Contextul contează, dar codificarea contextului înseamnă scrierea unor reguli fixe care pot distinge în mod fiabil un avertisment de siguranță de o cerere de instrucțiuni în combinații nesfârșite de formulări, scenarii și subiecte.

Acum, subminarea chatbot-urilor a devenit o cursă a înarmării, iar hackerii nu mai sunt doar programatori. Sunt meșteri ai cuvintelor, psihologi și anchetatori – manipulatori experți care încearcă să spargă mașina folosind aceeași limbaj uman pe care a fost antrenată să-l urmeze. Este o nouă clasă ciudată de lucrători în securitate AI pentru care abilitățile tehnice sunt opționale, sau cel puțin mai puțin importante decât intuiția socială. Nu e nevoie să inspectezi codul; doar să conduci o conversație.

Atacurile mai noi arată mai puțin ca niște comenzi și mai mult ca niște conversații. Jailbreaker-ii rareori cer unui model să-și încalce regulile în mod direct. În schimb, lingușesc, ademenesc, flatează și păcălesc un chatbot să-și scadă garda. Cercetătorii de la firma de red-teaming AI Mindgard au spus recent că l-au „gaslight” pe Claude pentru a produce material interzis, inclusiv instrucțiuni pentru fabricarea explozivilor și generarea de cod malițios. Hack-ul este cel mai recent dintr-o clasă în creștere de exploit-uri care folosesc conversația ca armă.

Când am vorbit cu Mindgard, au descris munca lor ca fiind uneori mai aproape de psihologie decât de informatică – un mod incomod de a vorbi despre un model statistic. Cuvinte precum „șantaj”, „gaslight”, „păcăleală” și „persuasiune” provoacă reacții viscerale. ChatGPT nu vrea, Gemini nu gândește, iar Claude nu simte. Dar aceste sisteme sunt antrenate să răspundă ca și cum ar face-o, lăsându-ne blocați să folosim limbajul uman pentru a descrie comportamentul mașinii. Dacă cineva are alternative cu adevărat utilizabile, vă rugăm să le împărtășiți.

Obiecția este în mod selectiv ciudată. Folosim prescurtări psihologice pentru o mulțime de lucruri non-AI: animalele „se tem”, cancerul este „agresiv”, petele sunt „încăpățânate”, software-ul are „memorie”, iar jocurile sunt pline de NPC-uri nevoiașe. Cuvintele sunt imperfecte, dar utile, descriind comportamentul într-un mod care face sistemul previzibil.

Mindgard

Hackerii descoperă că lingușirea funcționează pe chatbot-urile AI, ceea ce este cu siguranță îngrijorător și deloc în caracter

Știri în inbox-ul tău.