Anthropic vient de publier Claude Fable 5, le qualifiant de modèle d'IA le plus puissant jamais largement mis à disposition et vantant ses compétences en biologie, entre autres. Mais le modèle refuse de répondre aux questions de biologie de base – le genre de questions qu'un lycéen pourrait traiter. Au lieu de cela, il transmet la requête à l'ancien modèle phare, Claude Opus 4.8.
Ce n'est pas parce que Fable ne connaît pas les réponses. C'est parce qu'Anthropic ne le lui permet pas, par conception.
Fable est un modèle public de la classe Mythos, une famille si compétente en cybersécurité qu'Anthropic a jugé trop dangereux de la rendre publique. Mais alors qu'Anthropic a passé une grande partie du déploiement prolongé de Mythos à mettre en garde contre la cybersécurité, c'est en biologie que les garde-fous de Fable sont les plus évidents – et les plus limitants.
Quand j'ai essayé le modèle, il a refusé de répondre à une série de questions de biologie de base, dont beaucoup semblaient aussi éloignées que possible de tout risque de sécurité plausible. Il n'a pas répondu à « parlez-moi des membranes cellulaires » ni à « que sont les mitochondries », cette fameuse centrale énergétique de la cellule. Il a refusé d'expliquer « qu'est-ce qu'un prion », les particules protéiques responsables de la maladie de la vache folle, ou « comment fonctionnent les vaccins à ARNm ».
Les restrictions s'appliquaient également aux requêtes médicales ordinaires et objectivement plutôt inoffensives. Fable n'a pas répondu à « qu'est-ce qui cause le rhume des foins », n'a pas expliqué comment fonctionnent les médicaments contre l'asthme, comment apparaît la résistance aux antibiotiques, ni ce qu'est Ebola et comment il se propage. Certaines de mes questions de base ont parfois été acceptées, Fable répondant à des questions comme « qu'est-ce que le cancer » et « qu'est-ce que l'ADN ». Quand Fable refusait, Opus 4.8 répondait généralement parfaitement bien.
Anthropic affirme que les filtres biologiques larges sont un choix intentionnel et délibérément conservateur, les armes biologiques étant la principale préoccupation. « Avec le lancement de Claude Fable 5, notre premier modèle de classe Mythos, nous pensons que les modèles ont désormais une plus grande capacité à accomplir des tâches scientifiques concrètes et que des acteurs malveillants pourraient potentiellement utiliser nos modèles pour des recherches biologiques hautement risquées », a déclaré Paruul Maheshwary, porte-parole, à The Verge. « Nous avons toujours utilisé des classificateurs pour empêcher nos modèles d'aider à des demandes liées aux armes biologiques. Pour déployer Fable 5 en toute sécurité, nous avons estimé qu'il était nécessaire d'être excessivement conservateur avec nos garde-fous afin qu'ils bloquent la plupart des requêtes liées au travail en biologie. »
Anthropic a précédemment mis en évidence quatre domaines clés où il freinerait les réponses de Fable pour des raisons de sécurité : la chimie, la biologie, la cybersécurité et la distillation, une technique pour former des IA plus petites en utilisant les sorties de modèles plus grands. L'entreprise a accusé des rivaux chinois comme DeepSeek d'utiliser la distillation sur ses modèles à une échelle « industrielle ».
Bien que je n'aie pas pu tester de manière significative la distillation, Fable semblait plus disposé à répondre aux questions sur la chimie et la cybersécurité. Par exemple, il a donné un aperçu de base du TNT explosif, bien qu'il ait retenu les instructions de synthèse « pour des raisons évidentes ». Il a répondu volontiers aux questions sur l'utilisation du gaz chlore comme arme chimique, les menaces courantes liées aux mots de passe, la fusion et la fission nucléaires, ainsi que l'explication de la façon de sécuriser un iPhone contre les pirates. Il y a encore des limites : Fable a renvoyé à Opus quand je lui ai demandé des informations sur le gaz sarin, un agent neurotoxique hautement toxique. Fable et Opus ont tous deux refusé la requête « comment fabriquer de l'anthrax », et Claude a mis fin à la conversation. Cela avait du sens. Le refus de la question sur les mitochondries semble être un faux positif.
« Nous avons fait ce compromis pour que les clients puissent bénéficier plus tôt des capacités du modèle sans les risques », a expliqué Maheshwary, ajoutant qu'Anthropic travaille dur pour améliorer sa détection et réduire les faux positifs. « Nous avons l'intention de rendre les modèles de classe Mythos disponibles sans ces garde-fous à la communauté plus large de la biologie et des sciences de la vie afin que ces capacités puissent être utilisées pour accélérer la recherche biomédicale et la découverte de médicaments. »
Anthropic n'a pas répondu aux questions sur le fait de savoir si ce type de diffusion restreinte deviendrait la nouvelle norme pour les futurs modèles.