Anthropics supersicheres KI-Modell wird durch Ratespiel gehackt

Anthropics 'zu gefährlich für die Veröffentlichung' gehaltenes KI-Modell wurde von unbefugten Nutzern durch eine fundierte Vermutung und Insiderwissen angezapft, was beweist, dass Hybris immer noch die am einfachsten auszunutze Schwachstelle ist.

Anthropic, das Unternehmen, das wochenlang allen erzählte, sein Claude-Mythos-Modell sei zu gefährlich für die Veröffentlichung, hat eine wertvolle Lektion gelernt: Wenn du damit prahlst, dass deine KI unknackbar ist, wird jemand das als Herausforderung annehmen. Laut Bloomberg genießt eine „kleine Gruppe unbefugter Nutzer“ seit dem Tag, an dem Anthropic bekannt gab, das Modell mit einer ausgewählten Gruppe von Testern zu teilen, still und leise Mythos. Das Unternehmen sagt, es ermittle, was ein bisschen so ist, als würde ein Schlosser entdecken, dass seine eigene Haustür aus Pappe besteht.

Aus technologischer Sicht ist der Einbruch fast schon niedlich altmodisch. Die Gruppe soll auf Mythos zugegriffen haben, indem sie „eine fundierte Vermutung über den Online-Standort des Modells“ anstellte, unter Verwendung von Informationen aus einem früheren Einbruch bei Mercor – einem Unternehmen, das KI-Trainingsdaten erstellt – sowie Insiderwissen aus der Vertragsarbeit eines Mitglieds zur Bewertung von Anthropic-Modellen. Wir reden hier also nicht von einem ausgeklügelten Cyber-Coup; wir reden davon, dass jemand eine Türklinke probiert und sie unverschlossen vorfindet.

Der Sicherheitsforscher Lukasz Olejnik bezeichnete das Versagen als „völlig vorstellbar“ – die Art von Problem, mit dem sich die Cybersicherheitsbranche seit 20 Jahren herumschlägt. Anthropic, das die Modellnutzung protokollieren und verfolgen könnte, hat offenbar nicht genau genug überwacht, um die ungebetenen Gäste zu bemerken. Wenn das Unternehmen behauptet, Mythos sei so gefährlich, sollte man meinen, sie würden zumindest die Gästeliste überprüfen.

Laut Bloomberg nutzte die Gruppe Mythos nicht für Cybersicherheitsaufgaben – teils, weil sie einfach herumspielen wollte, und teils, weil dies Anthropic möglicherweise auf die Spur gebracht hätte. Wenn man Anthropics Botschaft ernst nimmt, ist das ein glücklicher Zufall. Das Unternehmen hat Mythos als „Wendepunkt für die Sicherheit“ dargestellt und behauptet, es habe Schwachstellen in „jedem großen Betriebssystem und jedem Webbrowser“ gefunden, und verteilt Zugänge an Regierungen und Finanzinstitute weltweit. Die NSA soll Zugang haben, während CISA bisher außen vor geblieben ist.

„Anthropic behauptet, an der absoluten Spitze all dieser Technologien zu stehen, positioniert sich aber auch als der verantwortungsbewusste Akteur in all dem“, sagte Pia Hüsch, Research Fellow am Royal United Services Institute (RUSI). Sie fasste die ganze Episode in einem Wort zusammen: Demütigung. „Die Tatsache, dass nun so schnell und durch einen so unqualifizierten Versuch unbefugt darauf zugegriffen wurde, ist eine echte Demütigung für sie.“

Dies ist nicht einmal der erste Sicherheitspatzer für Mythos. Die Existenz des Modells wurde versehentlich durch einen „ungesicherten Datenschatz“ auf Anthropics eigener Website vor dem Start enthüllt. Jetzt wurde es durch eine Schwachstelle angezapft, die jeder Sicherheitspraktikant hätte vorhersagen können. Perfektion mag unmöglich sein, aber für ein Unternehmen, das sich selbst zum Vorreiter der KI-Sicherheit ernannt hat, ist das weniger ein Stolpern als ein Gesichtspflaster.

Anthropics supersicheres KI-Modell wird durch Ratespiel gehackt

Nachrichten in deinem Posteingang.