Pangram: ИИ-детектив, который слишком хорош — и слишком плох

Помните, когда самой большой угрозой академической честности было списывание из Википедии? Это были более простые времена. Теперь у нас есть Pangram — инструмент для обнаружения ИИ, который стал де-факто судьёй, присяжными и палачом для подозрительных текстов, написанных ботами, — хотя, возможно, он только усугубляет ситуацию.

Pangram оказался в центре почти всех громких обвинений в написании текстов ИИ в последнее время. Он засветил хоррор-роман, снятый с публикации за несколько дней до выхода, предположил, что чат-боты написали статьи в The New York Times, вызвал подозрения по поводу отмеченных наградами рассказов и даже заподозрил значительные части энциклики Папы Льва XIV об опасностях ИИ. Университеты используют его для проверки студенческих работ; научные ассоциации сканируют с его помощью исследовательские статьи. Когда паника по поводу текстов, написанных ИИ, охватывает умы, Pangram становится кнопкой паники.

Всего несколько лет назад надёжное обнаружение ИИ казалось невозможным. В 2023 году ZeroGPT объявил Конституцию США написанной ИИ, а OpenAI отказался от собственного детектора из-за «низкой точности». Это было ещё тогда, когда тексты ChatGPT были заметно хуже. Теперь инструменты обнаружения значительно улучшились — и Pangram стал золотым стандартом. Вставьте текст, и он скажет вам, «Сгенерировано ИИ», «С помощью ИИ» или «Написано человеком».

Но вот в чём загвоздка с золотыми стандартами: они могут потускнеть. Генеральный директор Pangram Макс Сперо утверждает, что алгоритм ошибочно помечает человеческий текст как ИИ лишь примерно один раз из 10 000. «Это огромная ответственность, огромный вес — говорить, что что-то создано ИИ», — сказал мне Сперо. «Единственная причина, по которой мы это делаем, — это наша крайняя уверенность». Независимые анализы подтверждают его слова: в одной статье Чикагского университета почти не было ложных срабатываний на примерно 3000 образцах текстов.

Однако способность Pangram гарантировать, что что-то написано человеком, менее надёжна. Частота ложноотрицательных результатов — как часто он ошибочно помечает текст ИИ как человеческий — ближе к одному из 70, согласно собственным тестам Сперо. И это ещё до учёта гонки вооружений с лабораториями ИИ, которые делают чат-ботов всё более естественными, а также программ-«гуманизаторов», предназначенных для маскировки текстов ИИ.

Я протестировал один такой гуманизатор под названием Walter Writes AI. После того как ChatGPT и Claude написали краткие статьи, я пропустил их через перефразировку Walter. ChatGPT's «Числа больше не достаточно малы, чтобы их игнорировать» превратилось в «Огромные масштабы этих цифр использования больше нельзя игнорировать». Когда я вставил дважды обработанный результат в Pangram, он неизменно объявлял текст написанным человеком. (Полное раскрытие: The Atlantic запрещает использование текстов, сгенерированных ИИ, если они не помечены как таковые, и я не использую ИИ для исследований.)

Один учитель из государственной средней школы Нью-Йорка рассказал мне, что он «пропустил некоторые работы своих учеников через Pangram, и они показали 100% человеческое написание. И я не думаю, что это так». Он знает, на что способны его дети, и у него есть все основания сомневаться в Pangram. Но ложное обвинение ученика чревато высокими ставками: провал или обида. «Ставки так высоки», — сказал учитель, — «но наш способ оценки того, что создано ИИ, всё ещё так незрел».

Усложняя ситуацию, внутреннее устройство Pangram непрозрачно. Модель обучали, скармливая ей горы примеров, написанных человеком и ботом: рецензию на книгу из журнала, затем рецензию, написанную ChatGPT на ту же книгу в стиле того же журнала, — пока она не научилась их различать. Но Pangram не может указать на конкретные доказательства или закономерности. «Внутренняя работа алгоритма довольно неинтерпретируема», — признал Сперо. Хотя он хочет сделать метку «С помощью ИИ» более детальной, он «всё ещё не уверен, насколько это возможно». Мы рискуем наложить зависимость от ещё одного алгоритма-чёрного ящика.

Сперо настаивает, что Pangram «никогда не должен быть окончательным арбитром», а отправной точкой для расследования, и что компания расследует каждую сообщённую ошибку. Он отмечает, что у детекторов дыма и сканеров TSA тоже есть базовые уровни ошибок. Самая большая проблема, по его мнению, заключается не в технологии, а в том, что она пытается обнаружить: ИИ просачивается повсюду.

Pangram: ИИ-детектив, который слишком хорош — и слишком плох — в своей работе

Новости в вашей почте.