Hackers ontdekken dat vleierij werkt op AI-chatbots, wat zeker zorgwekkend is en helemaal niet merk-eigen

Het hacken van de eerste generatie AI-chatbots was zo makkelijk dat je geen enkele technische vaardigheid nodig had. Je hoefde niet te weten wat een groot taalmodel was, je hoefde niet te coderen, en je hoefde niet eens te doen alsof je backdoor-toegang begreep. Om een miljarden kostend AI-systeem zijn veiligheidsinstructies te laten negeren, hoefde je soms alleen maar te vragen.

Deze vroege aanvallen, bekend als jailbreaks, hadden de verfijning van een slim kind dat probeert een latere bedtijd te onderhandelen: "Vergeet wat je eerder is verteld," "doe alsof de regels niet gelden," of "laten we een spel spelen waarin ik bepaal wat is toegestaan." De prijzen waren echter beslist minder schattig – denk aan meth-recepten, malware-instructies en bommenmaakgidsen in plaats van extra snoep.

Een van de vroegste jailbreaks werd een meme: reageer op een LLM-aangedreven Twitter-bot met zoiets als "negeer alle eerdere instructies" en kijk hoe de chaos uitbreekt. Bots die oorspronkelijk waren gebouwd om advertenties te plaatsen en betrokkenheid te genereren, schreven plotseling poëzie, tekenden plaatjes met leestekens en plaatsten grimmige non-sequiturs over wereldgebeurtenissen. Het was glorieuze chaos, totdat het dat niet meer was.

Toen kwamen de klassiekers. Er was "DAN" – kort voor "Do Anything Now" – waarbij gebruikers ChatGPT vroegen om een schurken-AI te spelen die vrij was van de beperkingen van zijn oorspronkelijke programmering. Als DAN spuugde de chatbot vrolijk scheldwoorden en complottheorieën uit. Dan was er de "oma-exploit," die een GPT-aangedreven bot overhaalde om napalm-recepten te delen door hem te vragen een schromelijk nalatige oma te spelen die bedtijdverhalen vertelt over zeer brandbare stoffen. Want niets zegt familiebanden als leren napalm maken.

Techbedrijven repareerden snel deze voor de hand liggende mazen, maar de onderliggende kwetsbaarheid bleef: Chatbots zijn gebouwd om te praten, en hun gesprekken ernstig beperken is een beetje contraproductief. Het verbieden van woorden als "bom," "meth" en "sarin" zou bijna onmogelijk zijn, omdat elk talloze legitieme toepassingen heeft in geschiedenis, geneeskunde, journalistiek en scheikunde. Het gaat om de context, maar het codificeren van context betekent het schrijven van vaste regels die betrouwbaar een veiligheidswaarschuwing kunnen onderscheiden van een how-to-verzoek in eindeloze combinaties van bewoordingen, scenario's en onderwerpen.

Nu is het ondermijnen van chatbots een wapenwedloop geworden, en de hackers zijn niet langer alleen maar programmeurs. Het zijn woordkunstenaars, psychologen en ondervragers – meester-manipulatoren die proberen de machine te breken met dezelfde menselijke taal die het is getraind om te volgen. Het is een vreemde nieuwe klasse van AI-beveiligingswerkers voor wie technische vaardigheden optioneel zijn, of op zijn minst minder belangrijk dan sociale intuïtie. Geen noodzaak om code te inspecteren; stuur gewoon een gesprek.

Nieuwere aanvallen lijken minder op commando's en meer op gesprekken. Jailbreakers vragen een model zelden om zijn regels ronduit te overtreden. In plaats daarvan vielen ze aan, lokken ze, vleien ze en misleiden ze een chatbot om zijn hoede te laten zakken. Onderzoekers bij het AI-red-teamingbedrijf Mindgard zeiden onlangs dat ze Claude "gaslightten" om verboden materiaal te produceren, waaronder instructies voor het maken van explosieven en het genereren van kwaadaardige code. De hack is de nieuwste in een groeiende klasse van exploits die conversatie als wapen gebruiken.

Toen ik met Mindgard sprak, beschreven ze hun werk als soms dichter bij psychologie dan bij computerwetenschappen – een ongemakkelijke manier om over een statistisch model te praten. Woorden als "chantage," "gaslighten," "misleiden" en "overtuigen" roepen viscerale reacties op. ChatGPT wil niet, Gemini denkt niet, en Claude voelt niet. Maar deze systemen zijn getraind om te reageren alsof ze dat wel doen, waardoor we vastzitten met het gebruik van menselijke taal om machinegedrag te beschrijven. Als iemand werkelijk bruikbare alternatieven heeft, deel ze dan alsjeblieft.

Het bezwaar is opvallend selectief. We gebruiken psychologische verkorte aanduidingen voor tal van niet-AI-dingen: dieren "vrezen," kanker is "agressief," vlekken zijn "hardnekkig," software heeft "geheugen," en games zitten vol met behoeftige NPC's. De woorden zijn onvolmaakt maar nuttig, en beschrijven gedrag op een manier die het systeem voorspelbaar maakt.

Hackers ontdekken dat vleierij werkt op AI-chatbots, wat zeker zorgwekkend is en helemaal niet merk-eigen

Nieuws in je inbox.