Pangram : le détective IA trop bon - et trop mauvais - dans son travail

Vous souvenez-vous quand la plus grande menace à l'intégrité académique était un étudiant copiant sur Wikipédia ? C'était le bon vieux temps. Maintenant, nous avons Pangram, un outil de détection d'IA devenu le juge, jury et bourreau de facto pour les textes suspects d'être écrits par des robots - même s'il pourrait bien empirer les choses.

Pangram a été au centre de presque toutes les accusations récentes d'écriture par IA très médiatisées. Il a signalé un roman d'horreur retiré quelques jours avant sa sortie, suggéré que des chatbots avaient écrit des articles dans le New York Times, soulevé des sourcils sur des nouvelles primées, et même impliqué des parties importantes de l'encyclique du pape Léon XIV sur les dangers de l'IA. Les universités l'utilisent pour vérifier les travaux des étudiants ; les associations scientifiques passent au crible les articles de recherche avec lui. Quand la panique autour de l'écriture par IA frappe, Pangram est le bouton de panique par excellence.

Il y a seulement quelques années, une détection fiable de l'IA semblait impossible. En 2023, ZeroGPT déclarait la Constitution américaine écrite par IA, et OpenAI abandonnait son propre détecteur en raison d'un 'faible taux de précision'. C'était à l'époque où l'écriture de ChatGPT était nettement moins bonne. Maintenant, les outils de détection se sont considérablement améliorés - et Pangram est devenu l'étalon-or. Collez du texte, et il vous dit ce qui est 'Généré par IA', 'Assisté par IA' ou 'Écrit par un humain'.

Mais voilà le problème avec les étalons-or : ils peuvent ternir. Le PDG de Pangram, Max Spero, affirme que l'algorithme identifie incorrectement un texte humain comme étant de l'IA seulement environ une fois tous les 10 000 essais. 'Il y a une grande responsabilité, un poids énorme à dire que quelque chose est généré par IA', m'a confié Spero. 'La seule raison pour laquelle nous le faisons, c'est parce que nous sommes extrêmement confiants.' Des analyses indépendantes le confirment - un article de l'Université de Chicago n'a trouvé presque aucun faux positif sur quelque 3 000 échantillons de texte.

Cependant, la capacité de Pangram à garantir qu'un texte a été écrit par un humain est plus fragile. Le taux de faux négatifs - à quelle fréquence il étiquette incorrectement un texte d'IA comme humain - est plus proche d'un sur 70, selon les propres tests de Spero. Et ce, sans compter la course aux armements avec les laboratoires d'IA qui rendent les chatbots de plus en plus naturels, plus les programmes 'humaniseurs' conçus explicitement pour déguiser le texte d'IA.

J'ai testé l'un de ces humaniseurs appelé Walter Writes AI. Après avoir fait écrire de courts articles par ChatGPT et Claude, je les ai passés dans le reformulateur de Walter. 'Les chiffres ne sont plus assez petits pour être ignorés' de ChatGPT est devenu 'L'ampleur de ces chiffres d'utilisation ne peut plus être ignorée'. Quand j'ai collé le résultat doublement cuit dans Pangram, il a invariablement déclaré le texte écrit par un humain. (Divulgation complète : The Atlantic interdit l'utilisation de texte généré par IA sauf s'il est étiqueté comme tel, et je n'utilise pas l'IA pour la recherche.)

Un professeur de lycée public à New York m'a dit qu'il a 'passé certains des travaux de mes élèves dans Pangram, et cela ressort comme 100 % humain. Et je ne pense pas que ce soit le cas.' Il sait de quoi ses élèves sont capables et a amplement de raisons de douter de Pangram. Mais accuser un étudiant à tort comporte des enjeux élevés : échec ou ressentiment. 'Les enjeux sont si élevés', a dit le professeur, 'mais notre façon d'évaluer ce qui est généré par IA est encore si peu formée.'

Pour compliquer les choses, le fonctionnement interne de Pangram est opaque. Le modèle a été entraîné en lui fournissant des montagnes d'exemples écrits par des humains et par des robots - une critique de livre d'un magazine, puis une critique écrite par ChatGPT sur le même livre dans le même style du magazine - jusqu'à ce qu'il apprenne à les distinguer. Mais Pangram ne peut pas pointer des preuves ou des motifs spécifiques. 'Le fonctionnement interne de l'algorithme est assez ininterprétable', a admis Spero. Bien qu'il veuille rendre l'étiquette 'Assisté par IA' de Pangram plus granulaire, il 'n'est toujours pas sûr de la faisabilité'. Nous risquons d'ajouter une dépendance à un autre algorithme boîte noire.

Spero insiste sur le fait que Pangram ne devrait 'jamais être l'arbitre final' mais un point de départ pour l'enquête, et que l'entreprise enquête sur chaque erreur signalée. Il note que les détecteurs de fumée et les scanners de la TSA ont aussi des taux d'erreur de base. Le plus gros problème, selon lui, ne réside pas dans la technologie mais dans ce qu'elle tente de détecter : l'IA qui s'infiltre.

Pangram : le détective IA trop bon - et trop mauvais - dans son travail

Les nouvelles dans votre boîte.