Pangram: Detectivul AI care e prea bun – și prea rău

Vă mai amintiți când cea mai mare amenințare la adresa integrității academice era un student care copia de pe Wikipedia? Vremuri mai simple. Acum avem Pangram, un instrument de detectare AI care a devenit de facto judecătorul, juriul și călăul pentru textele suspectate a fi scrise de roboți – chiar dacă s-ar putea să înrăutățească lucrurile.

Pangram a fost în centrul aproape fiecărei acuzații de scriere AI de profil în ultima vreme. A semnalat un roman horror retras cu câteva zile înainte de lansare, a sugerat că chatboții au scris articole în The New York Times, a ridicat sprâncene în legătură cu povestiri premiate și chiar a implicat porțiuni semnificative din enciclica Papei Leon al XIV-lea despre pericolele AI. Universitățile îl folosesc pentru a verifica lucrările studenților; asociațiile științifice scanează lucrări de cercetare cu el. Când panica legată de scrierea AI lovește, Pangram este butonul de panică la care se apelează.

Acum câțiva ani, detectarea fiabilă a AI părea imposibilă. În 2023, ZeroGPT a declarat Constituția SUA scrisă de AI, iar OpenAI și-a abandonat propriul detector din cauza unei „rate scăzute de acuratețe”. Era pe vremea când scrisul ChatGPT era vizibil mai prost. Acum, instrumentele de detectare s-au îmbunătățit dramatic – și Pangram a ieșit la iveală ca standardul de aur. Lipești textul și îți spune ce este „Generat de AI”, „Asistat de AI” sau „Scris de om”.

Dar iată care e problema cu standardele de aur: se pot păta. CEO-ul Pangram, Max Spero, susține că algoritmul marchează incorect textul uman ca AI doar aproximativ o dată la 10.000 de ori. „Există o mare responsabilitate, o greutate imensă în a spune că ceva este generat de AI”, mi-a spus Spero. „Singurul motiv pentru care o facem este că suntem extrem de încrezători.” Analize independente îl susțin – o lucrare a Universității din Chicago nu a găsit aproape niciun fals pozitiv pe vreo 3.000 de texte eșantion.

Totuși, capacitatea Pangram de a garanta că ceva a fost scris de un om este mai șubredă. Rata de fals negativ – cât de des etichetează incorect text AI ca fiind uman – este mai aproape de una la 70, conform propriilor teste ale lui Spero. Și asta înainte de a lua în considerare cursa înarmării cu laboratoarele AI care fac ca chatboții să sune din ce în ce mai natural, plus programele „umanizatoare” concepute explicit pentru a disimula textul AI.

Am testat un astfel de umanizator numit Walter Writes AI. După ce am făcut ChatGPT și Claude să scrie articole scurte, le-am rulat prin reformularea lui Walter. „Numerele nu mai sunt suficient de mici pentru a fi ignorate” de la ChatGPT a devenit „Mărimea pură a acestor cifre de utilizare nu mai poate fi ignorată”. Când am lipit rezultatul dublu procesat în Pangram, acesta a declarat invariabil textul ca fiind scris de om. (Dezvăluire completă: The Atlantic interzice utilizarea textului generat de AI, cu excepția cazului în care este etichetat ca atare, și nu folosesc AI pentru cercetare.)

Un profesor de liceu public din New York mi-a spus că „a rulat unele dintre lucrările elevilor mei prin Pangram și apare ca 100% uman. Și nu cred că este.” Știe de ce sunt capabili elevii săi și are motive întemeiate să se îndoiască de Pangram. Dar a acuza un elev fals are mize mari: eșec sau resentimente. „Mizele sunt atât de mari”, a spus profesorul, „dar modul nostru de a evalua ce este generat de AI este încă atât de neformat.”

Complicând și mai mult lucrurile, mecanismele interne ale Pangram sunt opace. Modelul a fost antrenat hrănindu-l cu munți de exemple scrise de oameni și de roboți – o recenzie de carte dintr-o revistă, apoi o recenzie scrisă de ChatGPT despre aceeași carte în același stil al revistei – până când învață să le deosebească. Dar Pangram nu poate indica dovezi sau modele specifice. „Mecanismele interne ale algoritmului sunt destul de neinterpretabile”, a recunoscut Spero. Deși vrea să facă eticheta „asistat de AI” a Pangram mai granulară, „încă nu sunt sigur cât de posibil este”. Riscăm să stratificăm dependența de un alt algoritm cutie neagră.

Spero insistă că Pangram ar trebui „să nu fie niciodată arbitrul final”, ci un punct de plecare pentru investigație, și că compania investighează fiecare eroare raportată. El observă că detectoarele de fum și scanerele TSA au și ele rate de eroare de bază. Cea mai mare problemă, susține el, nu constă în tehnologie, ci în ceea ce încearcă să detecteze: infiltrarea AI.

Pangram: Detectivul AI care e prea bun – și prea rău – la treaba lui

Știri în inbox-ul tău.