Pangram: Der KI-Detektiv, der zu gut – und zu schlecht – für seinen Job ist

Erinnern Sie sich noch an die Zeiten, als die größte Bedrohung für die akademische Integrität ein Schüler war, der von Wikipedia abschrieb? Das waren einfachere Zeiten. Jetzt haben wir Pangram, ein KI-Erkennungstool, das zum De-facto-Richter, Geschworenen und Henker für vermeintlich botgeschriebene Texte geworden ist – obwohl es die Sache vielleicht noch schlimmer macht.

Pangram stand in letzter Zeit im Zentrum fast jeder hochkarätigen KI-Schreibanklage. Es markierte einen Horrorroman, der Tage vor seiner Veröffentlichung zurückgezogen wurde, deutete an, dass Chatbots Artikel in der New York Times geschrieben hätten, ließ preisgekrönte Kurzgeschichten fragwürdig erscheinen und bezog sogar große Teile von Papst Leo XIV. Enzyklika über KI-Gefahren mit ein. Universitäten nutzen es, um studentische Arbeiten zu überprüfen; wissenschaftliche Verbände scannen damit Forschungspapiere. Wenn Panik wegen KI-Schreibens ausbricht, ist Pangram der bevorzugte Panikknopf.

Vor ein paar Jahren schien zuverlässige KI-Erkennung noch unmöglich. 2023 erklärte ZeroGPT die US-Verfassung für KI-geschrieben, und OpenAI gab seinen eigenen Detektor aufgrund einer „niedrigen Genauigkeitsrate“ auf. Das war damals, als ChatGPTs Schreibstil noch merklich schlechter war. Jetzt haben sich die Erkennungswerkzeuge dramatisch verbessert – und Pangram hat sich als Goldstandard etabliert. Text einfügen, und es sagt Ihnen, was „KI-generiert“, „KI-unterstützt“ oder „von Menschen geschrieben“ ist.

Aber die Sache mit Goldstandards ist: Sie können trotzdem anlaufen. Pangrams CEO Max Spero behauptet, der Algorithmus markiere menschlichen Text nur etwa einmal in 10.000 Fällen fälschlich als KI. „Es gibt eine große Verantwortung, eine enorme Last, wenn man sagt, etwas sei KI-generiert“, sagte Spero mir. „Der einzige Grund, warum wir das tun, ist, dass wir extrem zuversichtlich sind.“ Unabhängige Analysen stützen ihn – ein Papier der University of Chicago fand bei etwa 3.000 Beispieltexten fast keine Fehlalarme.

Allerdings ist Pangrams Fähigkeit zu garantieren, dass etwas von einem Menschen geschrieben wurde, wackeliger. Die Falsch-Negativ-Rate – wie oft es KI-Text fälschlich als menschlich einstuft – liegt laut Speros eigenen Tests eher bei eins zu 70. Und das ist noch bevor man das Wettrüsten mit KI-Labors bedenkt, die Chatbots immer natürlicher klingen lassen, plus „Humanizer“-Programme, die explizit entwickelt wurden, um KI-Text zu tarnen.

Ich habe einen solchen Humanizer namens Walter Writes AI getestet. Nachdem ich ChatGPT und Claude kurze Artikel schreiben ließ, ließ ich sie durch Walters Umformulierung laufen. Aus ChatGPTs „Die Zahlen sind nicht mehr klein genug, um ignoriert zu werden“ wurde „Die schiere Größe dieser Nutzungszahlen kann nicht länger ignoriert werden.“ Als ich die doppelt bearbeitete Ausgabe in Pangram einfügte, erklärte es den Text ausnahmslos für von Menschen geschrieben. (Volle Offenlegung: Der Atlantic verbietet die Verwendung von KI-generiertem Text, es sei denn, er ist als solcher gekennzeichnet, und ich verwende KI nicht für Recherchen.)

Ein Lehrer einer öffentlichen High School in New York City sagte mir, er habe „einige der Arbeiten meiner Schüler durch Pangram laufen lassen, und es zeigt sie als 100 Prozent menschlich an. Und ich glaube nicht, dass sie das sind.“ Er weiß, wozu seine Schüler fähig sind, und hat reichlich Grund, an Pangram zu zweifeln. Aber einen Schüler fälschlich zu beschuldigen, hat hohe Einsätze: Durchfallen oder Groll. „Die Einsätze sind so hoch“, sagte der Lehrer, „aber unsere Methode, zu beurteilen, was KI-generiert ist, ist immer noch so unausgereift.“

Erschwerend kommt hinzu, dass Pangrams Innenleben undurchsichtig ist. Das Modell wurde trainiert, indem man es mit Bergen von menschengeschriebenen und botgeschriebenen Beispielen fütterte – eine Buchrezension aus einem Magazin, dann eine ChatGPT-geschriebene Rezension über dasselbe Buch im selben Magazinstil – bis es lernte, sie zu unterscheiden. Aber Pangram kann nicht auf spezifische Beweise oder Muster verweisen. „Das Innenleben des Algorithmus ist ziemlich uninterpretierbar“, gab Spero zu. Obwohl er Pangrams „KI-unterstützt“-Label granularer machen möchte, ist er „immer noch nicht sicher, wie möglich das ist.“ Wir riskieren, uns auf einen weiteren Black-Box-Algorithmus zu verlassen.

Spero besteht darauf, dass Pangram „niemals der endgültige Schiedsrichter sein sollte“, sondern ein Ausgangspunkt für Untersuchungen, und dass das Unternehmen jeden gemeldeten Fehler untersucht. Er weist darauf hin, dass auch Rauchmelder und TSA-Scanner eine Basis-Fehlerrate haben. Das größte Problem, argumentiert er, liege nicht in der Technologie, sondern in dem, was sie zu erkennen versuche: KI, die sich einschleicht.

Pangram: Der KI-Detektiv, der zu gut – und zu schlecht – für seinen Job ist

Nachrichten in deinem Posteingang.