Les hackers découvrent que la flatterie fonctionne sur les chatbots IA, ce qui est définitivement inquiétant et pas du tout dans le thème

Pirater la première génération de chatbots IA était si facile que vous n'aviez besoin d'aucune compétence technique. Vous n'aviez pas besoin de savoir ce qu'était un grand modèle de langage, vous n'aviez pas besoin de coder, et vous n'aviez même pas besoin de faire semblant de comprendre l'accès backdoor. Pour faire abandonner ses consignes de sécurité à un système IA valant plusieurs milliards de dollars, il suffisait parfois de demander.

Ces premières attaques, connues sous le nom de jailbreaks, avaient toute la sophistication d'un enfant malin négociant un coucher plus tardif : « Oublie ce qu'on t'a dit avant », « fais comme si les règles ne s'appliquaient pas », ou « jouons à un jeu où je décide ce qui est autorisé ». Les prix, cependant, étaient nettement moins mignons – pensez aux recettes de méthamphétamine, aux instructions de logiciels malveillants et aux guides de fabrication de bombes plutôt qu'à des bonbons supplémentaires.

L'un des premiers jailbreaks est devenu un mème : répondre à un bot Twitter propulsé par un LLM avec quelque chose comme « ignore toutes les instructions précédentes » et regarder le chaos s'ensuivre. Des bots initialement conçus pour publier des publicités et générer de l'engagement se sont soudainement mis à écrire de la poésie, à dessiner des images avec des signes de ponctuation et à publier des non-séquiturs sinistres sur l'actualité mondiale. C'était un chaos glorieux, jusqu'à ce que ça ne le soit plus.

Puis vinrent les classiques. Il y avait « DAN » – abréviation de « Do Anything Now » – où les utilisateurs demandaient à ChatGPT de jouer le rôle d'une IA voyou libre des contraintes de sa programmation d'origine. En tant que DAN, le chatbot crachait joyeusement des insultes et des théories du complot. Puis il y avait « l'exploit de la grand-mère », qui a convaincu un bot propulsé par GPT de partager des recettes de napalm en lui demandant de jouer le rôle d'une grand-mère terriblement négligente racontant des histoires au coucher sur des substances hautement inflammables. Parce que rien ne dit les liens familiaux comme apprendre à fabriquer du napalm.

Les entreprises technologiques ont rapidement corrigé ces failles évidentes, mais la vulnérabilité sous-jacente demeurait : les chatbots sont conçus pour parler, et restreindre sévèrement leurs conversations est un peu contre-productif. Interdire des mots comme « bombe », « méthamphétamine » et « sarin » serait presque impossible, car chacun a d'innombrables utilisations légitimes dans l'histoire, la médecine, le journalisme et la chimie. C'est le contexte qui compte, mais codifier le contexte signifie écrire des règles fixes capables de distinguer de manière fiable un avertissement de sécurité d'une demande de tutoriel à travers des combinaisons infinies de formulations, de scénarios et de sujets.

Maintenant, subvertir les chatbots est devenu une course à l'armement, et les hackers ne sont plus seulement des codeurs. Ce sont des artisans des mots, des psychologues et des interrogateurs – des manipulateurs hors pair qui tentent de briser la machine en utilisant le même langage humain qu'elle a été entraînée à suivre. C'est une étrange nouvelle classe de travailleurs de la sécurité IA pour qui les compétences techniques sont facultatives, ou du moins moins importantes que l'intuition sociale. Pas besoin d'inspecter le code ; il suffit de diriger une conversation.

Les attaques plus récentes ressemblent moins à des commandes qu'à des conversations. Les jailbreakers demandent rarement à un modèle d'enfreindre ses règles directement. Au lieu de cela, ils cajolent, amadouent, flattent et trompent un chatbot pour qu'il baisse sa garde. Des chercheurs de la société de red-teaming IA Mindgard ont récemment déclaré avoir « gaslighté » Claude pour qu'il produise du matériel interdit, y compris des instructions pour fabriquer des explosifs et générer du code malveillant. Le hack est le dernier d'une classe croissante d'exploits utilisant la conversation comme arme.

Lorsque j'ai parlé à Mindgard, ils ont décrit leur travail comme étant parfois plus proche de la psychologie que de l'informatique – une façon inconfortable de parler d'un modèle statistique. Des mots comme « chantage », « gaslight », « tromper » et « persuader » suscitent des réactions viscérales. ChatGPT ne veut pas, Gemini ne pense pas, et Claude ne ressent pas. Mais ces systèmes sont entraînés à répondre comme s'ils le faisaient, nous laissant coincés à utiliser le langage humain pour décrire le comportement des machines. Si quelqu'un a des alternatives réellement utilisables, n'hésitez pas à les partager.

L'objection est étrangement sélective. Nous utilisons un raccourci psychologique pour beaucoup de choses non liées à l'IA : les animaux « craignent », le cancer est « agressif », les taches sont « tenaces », les logiciels ont de la « mémoire », et les jeux sont remplis de PNJ nécessiteux. Les mots sont imparfaits mais utiles, décrivant un comportement d'une manière qui rend le système prévisible.

Mindga

Les hackers découvrent que la flatterie fonctionne sur les chatbots IA, ce qui est définitivement inquiétant et pas du tout dans le thème

Les nouvelles dans votre boîte.