Le modèle IA hyper-sécurisé d'Anthropic piraté via un jeu de devinettes

Anthropic, qui se vantait que son modèle IA Mythos était trop dangereux pour être publié, a été piraté via une simple supposition éclairée et des informations internes, prouvant que l'orgueil reste la vulnérabilité la plus facile à exploiter.

Anthropic, la société qui a passé des semaines à répéter que son modèle Claude Mythos était trop dangereux pour être rendu public, a appris une leçon précieuse : si vous vous vantez que votre IA est inviolable, quelqu'un relèvera le défi. Selon Bloomberg, un « petit groupe d'utilisateurs non autorisés » profite tranquillement de Mythos depuis le jour où Anthropic a annoncé partager le modèle avec un groupe sélectionné de testeurs. La société dit enquêter, ce qui ressemble un peu à un serrurier découvrant que sa propre porte d'entrée est en carton.

D'un point de vue technologique, la brèche est presque attendrissante de simplicité. Le groupe aurait accédé à Mythos en faisant « une supposition éclairée sur l'emplacement en ligne du modèle », en utilisant des informations provenant d'une précédente fuite chez Mercor - une entreprise qui fabrique des données d'entraînement pour l'IA - ainsi que des connaissances internes d'un membre ayant travaillé comme contractuel pour évaluer les modèles d'Anthropic. On ne parle donc pas d'un cyber-casse sophistiqué ; on parle de quelqu'un qui essaie une poignée de porte et la trouve déverrouillée.

Le chercheur en sécurité Lukasz Olejnik a décrit l'échec comme « tout à fait imaginable » - le genre de chose que l'industrie de la cybersécurité gère depuis 20 ans. Anthropic, qui pouvait journaliser et suivre l'utilisation du modèle, ne surveillait apparemment pas assez attentivement pour remarquer les invités non invités. Compte tenu de la dangerosité que la société attribue à Mythos, on aurait pu penser qu'ils vérifieraient au moins la liste des invités.

Selon Bloomberg, le groupe n'utilisait pas Mythos pour des tâches de cybersécurité - en partie parce qu'ils voulaient juste s'amuser, et en partie parce que cela aurait pu alerter Anthropic. Si l'on prend au sérieux la communication d'Anthropic, c'est une chance. La société a présenté Mythos comme un « moment charnière pour la sécurité », affirmant avoir trouvé des vulnérabilités dans « tous les principaux systèmes d'exploitation et navigateurs web », et distribue l'accès à des gouvernements et institutions financières du monde entier. La NSA y aurait accès, bien que la CISA ait été laissée de côté jusqu'à présent.

« Anthropic prétend être à l'avant-garde absolue de toutes ces technologies, mais se positionne aussi comme l'acteur responsable dans tout cela », a déclaré Pia Hüsch, chercheuse au Royal United Services Institute (RUSI). Elle a résumé tout l'épisode en un mot : humiliation. « Le fait que cela ait été accédé par des moyens non autorisés si rapidement, et via une tentative aussi peu sophistiquée, est vraiment une humiliation pour eux. »

Ce n'est même pas le premier accroc de sécurité pour Mythos. L'existence du modèle a été accidentellement révélée via un « trésor de données non sécurisé » sur le propre site web d'Anthropic avant le lancement. Maintenant, il a été accédé via une vulnérabilité que n'importe quel stagiaire en sécurité aurait pu prédire. La perfection est peut-être impossible, mais pour une entreprise qui s'est auto-proclamée fer de lance de la sécurité de l'IA, c'est moins un faux pas qu'une chute de tout son long.

Le modèle IA hyper-sécurisé d'Anthropic piraté via un jeu de devinettes

Les nouvelles dans votre boîte.