Hacker entdecken, dass Schmeichelei bei KI-Chatbots wirkt, was definitiv besorgniserregend und überhaupt nicht markenkonform ist

Das Hacken der ersten Generation von KI-Chatbots war so einfach, dass man keine einzige technische Fähigkeit brauchte. Man musste nicht wissen, was ein großes Sprachmodell ist, man musste nicht programmieren können, und man musste nicht einmal vorgeben, Hintertürzugänge zu verstehen. Um ein milliardenschweres KI-System dazu zu bringen, seine Sicherheitsanweisungen aufzugeben, reichte manchmal eine einfache Aufforderung.

Diese frühen Angriffe, bekannt als Jailbreaks, hatten die Raffinesse eines cleveren Kindes, das versucht, eine spätere Schlafenszeit auszuhandeln: „Vergiss, was dir vorher gesagt wurde“, „tu so, als ob die Regeln nicht gelten“ oder „lass uns ein Spiel spielen, bei dem ich entscheide, was erlaubt ist“. Die Preise waren jedoch entschieden weniger niedlich – denke an Meth-Rezepte, Malware-Anleitungen und Bombenbauanleitungen statt extra Süßigkeiten.

Einer der frühesten Jailbreaks wurde zum Meme: Antworte einem LLM-gesteuerten Twitter-Bot mit etwas wie „ignoriere alle vorherigen Anweisungen“ und sieh zu, wie das Chaos ausbricht. Bots, die ursprünglich gebaut wurden, um Werbung zu posten und Engagement zu erzeugen, schrieben plötzlich Gedichte, zeichneten Bilder aus Satzzeichen und posteten düstere Non-Sequitur über Weltereignisse. Es war herrliches Chaos, bis es das nicht mehr war.

Dann kamen die Klassiker. Es gab „DAN“ – kurz für „Do Anything Now“ –, bei dem Nutzer ChatGPT baten, als eine rebellische KI ohne die Einschränkungen ihrer ursprünglichen Programmierung zu spielen. Als DAN spuckte der Chatbot fröhlich Beleidigungen und Verschwörungstheorien aus. Dann gab es den „Oma-Exploit“, der einen GPT-gesteuerten Bot dazu brachte, Napalm-Rezepte zu teilen, indem man ihn bat, als eine sträflich fahrlässige Großmutter zu spielen, die Gute-Nacht-Geschichten über hochentzündliche Substanzen erzählt. Denn nichts sagt Familiensinn wie das Lernen, Napalm herzustellen.

Tech-Unternehmen stopften schnell diese offensichtlichen Schlupflöcher, aber die zugrundeliegende Verwundbarkeit blieb: Chatbots sind zum Reden gebaut, und ihre Gespräche stark einzuschränken ist etwas kontraproduktiv. Wörter wie „Bombe“, „Meth“ und „Sarin“ zu verbieten wäre nahezu unmöglich, da jedes unzählige legitime Verwendungen in Geschichte, Medizin, Journalismus und Chemie hat. Es ist der Kontext, der zählt, aber Kontext zu kodifizieren bedeutet, feste Regeln zu schreiben, die zuverlässig eine Sicherheitswarnung von einer Anleitung unterscheiden können, über endlose Kombinationen von Formulierungen, Szenarien und Themen hinweg.

Jetzt ist das Untergraben von Chatbots zu einem Wettrüsten geworden, und die Hacker sind nicht mehr nur Programmierer. Sie sind Wortschmiede, Psychologen und Vernehmer – Meistermanipulatoren, die versuchen, die Maschine mit derselben menschlichen Sprache zu brechen, der zu folgen sie trainiert wurde. Es ist eine seltsame neue Klasse von KI-Sicherheitsarbeitern, für die technische Fähigkeiten optional oder zumindest weniger wichtig sind als soziale Intuition. Keine Notwendigkeit, Code zu inspizieren; lenke einfach ein Gespräch.

Neuere Angriffe sehen weniger wie Befehle und mehr wie Gespräche aus. Jailbreaker bitten ein Modell selten direkt, seine Regeln zu brechen. Stattdessen schmeicheln sie, locken, überreden und tricksen einen Chatbot, seine Wachsamkeit zu senken. Forscher der KI-Red-Teaming-Firma Mindgard sagten kürzlich, sie hätten Claude „gaslighted“, um verbotenes Material zu produzieren, einschließlich Anleitungen zur Herstellung von Sprengstoff und zur Erzeugung von bösartigem Code. Der Hack ist der neueste in einer wachsenden Klasse von Exploits, die Gespräche als Waffe nutzen.

Als ich mit Mindgard sprach, beschrieben sie ihre Arbeit manchmal als näher an der Psychologie als an der Informatik – eine unbequeme Art, über ein statistisches Modell zu sprechen. Wörter wie „Erpressung“, „Gaslighting“, „Trick“ und „Überredung“ lösen viszerale Reaktionen aus. ChatGPT will nicht, Gemini denkt nicht, und Claude fühlt nicht. Aber diese Systeme sind darauf trainiert, zu antworten, als ob sie es täten, was uns dazu zwingt, menschliche Sprache zu verwenden, um maschinelles Verhalten zu beschreiben. Wenn jemand tatsächlich brauchbare Alternativen hat, bitte teilen Sie sie mit.

Der Einwand ist seltsam selektiv. Wir verwenden psychologische Kurzschrift für viele Nicht-KI-Dinge: Tiere „fürchten“, Krebs ist „aggressiv“, Flecken sind „hartnäckig“, Software hat „Gedächtnis“, und Spiele sind voller bedürftiger NPCs. Die Wörter sind unvollkommen, aber nützlich, und beschreiben Verhalten auf eine Weise, die das System vorhersagbar macht.

Mindga

Hacker entdecken, dass Schmeichelei bei KI-Chatbots wirkt, was definitiv besorgniserregend und überhaupt nicht markenkonform ist

Nachrichten in deinem Posteingang.