Pangram: Detektyw AI, który jest zbyt dobry – i zbyt zły

Pamiętacie czasy, gdy największym zagrożeniem dla integralności akademickiej było przepisywanie z Wikipedii? To były prostsze czasy. Teraz mamy Pangrama, narzędzie do wykrywania AI, które stało się de facto sędzią, ławą przysięgłych i katem dla podejrzanych tekstów napisanych przez bota – mimo że może pogarszać sytuację.

Pangram był w centrum prawie każdej głośnej ostatnio akuzacji o pisanie przez AI. Oznaczył powieść grozy wycofaną na kilka dni przed premierą, sugerował, że chatboty napisały artykuły w The New York Times, wzbudził podejrzenia wobec nagrodzonych opowiadań, a nawet oskarżył znaczące fragmenty encykliki papieża Leona XIV o zagrożeniach AI. Uniwersytety używają go do weryfikacji prac studentów; stowarzyszenia naukowe skanują nim artykuły. Gdy panika przed pisaniem przez AI uderza, Pangram jest przyciskiem paniki.

Jeszcze kilka lat temu niezawodne wykrywanie AI wydawało się niemożliwe. W 2023 roku ZeroGPT uznał Konstytucję USA za napisaną przez AI, a OpenAI porzucił swój własny detektor z powodu „niskiego poziomu dokładności”. To było w czasach, gdy ChatGPT pisał zauważalnie gorzej. Teraz narzędzia detekcyjne znacznie się poprawiły – a Pangram stał się złotym standardem. Wklej tekst, a on mówi, czy jest „wygenerowany przez AI”, „wspomagany przez AI” czy „napisany przez człowieka”.

Ale tu jest haczyk: złote standardy też mogą matowieć. CEO Pangrama Max Spero twierdzi, że algorytm błędnie oznacza ludzki tekst jako AI tylko raz na 10 000 przypadków. „To wielka odpowiedzialność, ogromny ciężar stwierdzić, że coś jest wygenerowane przez AI” – powiedział mi Spero. „Robimy to tylko dlatego, że jesteśmy niezwykle pewni”. Niezależne analizy potwierdzają jego słowa – jeden z artykułów University of Chicago nie znalazł prawie żadnych fałszywych alarmów na około 3000 próbek tekstu.

Jednak zdolność Pangrama do zagwarantowania, że coś zostało napisane przez człowieka, jest słabsza. Wskaźnik fałszywie negatywnych – jak często błędnie oznacza tekst AI jako ludzki – jest bliższy 1 na 70, według testów samego Spero. I to jeszcze przed uwzględnieniem wyścigu zbrojeń z laboratoriami AI, które sprawiają, że chatboty brzmią coraz bardziej naturalnie, oraz programów „humanizujących” zaprojektowanych specjalnie do maskowania tekstu AI.

Przetestowałem jeden taki humanizer o nazwie Walter Writes AI. Po tym, jak ChatGPT i Claude napisały krótkie artykuły, przepuściłem je przez przeróbkę Waltera. „Liczby nie są już wystarczająco małe, by je ignorować” stało się „Ogrom tych danych dotyczących użycia nie może być już dłużej ignorowany”. Gdy wkleiłem podwójnie przetworzony wynik do Pangrama, niezmiennie uznawał tekst za napisany przez człowieka. (Pełne ujawnienie: The Atlantic zabrania używania tekstu generowanego przez AI, chyba że jest oznaczony jako taki, i nie używam AI do badań.)

Nauczyciel z nowojorskiego publicznego liceum powiedział mi, że „przepuścił niektóre prace swoich uczniów przez Pangrama i pokazuje 100 procent człowieka. A nie sądzę, żeby tak było”. Wie, do czego zdolni są jego uczniowie, i ma wiele powodów, by wątpić w Pangrama. Ale fałszywe oskarżenie ucznia niesie wysokie ryzyko: porażkę lub urazę. „Stawka jest tak wysoka” – powiedział nauczyciel – „ale nasz sposób oceny, co jest generowane przez AI, jest wciąż tak nieukształtowany”.

Sprawę komplikuje dodatkowo nieprzejrzystość wewnętrznego działania Pangrama. Model został wytrenowany przez karmienie go górami przykładów napisanych przez człowieka i bota – recenzja książki z magazynu, potem recenzja tej samej książki napisana przez ChatGPT w stylu tego samego magazynu – aż nauczył się je odróżniać. Ale Pangram nie może wskazać konkretnych dowodów ani wzorców. „Wewnętrzne działanie algorytmu jest dość nieinterpretowalne” – przyznał Spero. Choć chce, aby etykieta „wspomagane przez AI” była bardziej szczegółowa, „wciąż nie jest pewien, na ile to możliwe”. Ryzykujemy nałożenie kolejnej zależności od kolejnego algorytmu czarnej skrzynki.

Spero podkreśla, że Pangram „nigdy nie powinien być ostatecznym arbitrem”, ale punktem wyjścia do dochodzenia, a firma bada każdy zgłoszony błąd. Zauważa, że czujniki dymu i skanery TSA też mają podstawowe wskaźniki błędów. Największy problem, jak twierdzi, leży nie w technologii, ale w tym, co próbuje wykryć: przenikaniu AI.

Pangram: Detektyw AI, który jest zbyt dobry – i zbyt zły – w swojej pracy

Wiadomości w Twojej skrzynce.