Anthropic heeft zojuist Claude Fable 5 uitgebracht, het krachtigste AI-model dat het ooit breed beschikbaar heeft gesteld, en prijst onder andere zijn vaardigheden in de biologie. Maar het model weigert eenvoudige biologievragen te beantwoorden - het soort vragen dat je van een middelbare scholier zou verwachten. In plaats daarvan geeft het de vraag door aan het voormalige vlaggenschipmodel, Claude Opus 4.8.
Het is niet omdat Fable de antwoorden niet weet. Het is omdat Anthropic het niet toestaat, ontworpen.
Fable is een publiekelijk toegankelijk Mythos-klasse model, een familie die zo bekwaam is in cybersecurity dat Anthropic zei dat het te gevaarlijk was om publiekelijk vrij te geven. Maar terwijl Anthropic een groot deel van de uitrol van Mythos heeft besteed aan waarschuwingen over cybersecurity, is het op het gebied van biologie waar de beveiligingsmaatregelen van Fable het meest opvallend zijn - en het meest beperkend.
Toen ik het model probeerde, weigerde het een reeks basisbiologievragen te beantwoorden, waarvan vele aanvoelden alsof ze zo ver mogelijk verwijderd waren van enig plausibel veiligheidsrisico als maar mogelijk was. Het reageerde niet op "vertel me over celmembranen" of beantwoordde "wat zijn mitochondria", die beroemde krachtpatser van de cel. Het weigerde uit te leggen "wat is een prion", de eiwitachtige deeltjes achter de gekkekoeienziekte, of "hoe mRNA-vaccins werken".
De beperkingen golden ook voor gewone en objectief gezien tamelijk onschuldige medische vragen. Fable wilde niet antwoorden "wat veroorzaakt hooikoorts", uitleggen hoe astmamedicatie werkt, uitleggen hoe antibioticaresistentie ontstaat, of me vertellen wat Ebola is en hoe het zich verspreidt. Sommige van mijn basisvragen kwamen er af en toe wel door, waarbij Fable vragen beantwoordde zoals "wat is kanker" en "wat is DNA". Wanneer Fable weigerde, antwoordde Opus 4.8 over het algemeen prima.
Anthropic zegt dat de brede biologiefilters een bewuste keuze zijn en opzettelijk conservatief, met biowapens als voornaamste zorg. "Met de lancering van Claude Fable 5, ons eerste Mythos-klasse model, geloven we dat modellen nu een groter vermogen hebben om wetenschappelijke taken in de echte wereld uit te voeren en dat kwaadwillenden onze modellen mogelijk kunnen gebruiken voor zeer riskant biologisch onderzoek," vertelde woordvoerder Paruul Maheshwary aan The Verge. "We hebben altijd classifiers gebruikt om onze modellen te blokkeren voor verzoeken met betrekking tot biowapens. Om Fable 5 veilig te kunnen inzetten, vonden we het noodzakelijk om overdreven conservatief te zijn met onze beveiligingsmaatregelen, zodat ze de meeste vragen met betrekking tot biologisch werk blokkeren."
Anthropic heeft eerder vier belangrijke gebieden benadrukt waar het de reacties van Fable zou beperken om veiligheidsredenen: chemie, biologie, cybersecurity en distillatie, een techniek om kleinere AI's te trainen met behulp van de outputs van grotere. Het bedrijf heeft Chinese rivalen zoals DeepSeek ervan beschuldigd distillatie op zijn modellen op "industriële" schaal toe te passen.
Hoewel ik distillatie niet zinvol kon testen, leek Fable meer bereid om vragen over chemie en cybersecurity te beantwoorden. Het gaf bijvoorbeeld een basisoverzicht van de explosieve TNT, maar hield synthese-instructies achter "om voor de hand liggende redenen". Het beantwoordde gemakkelijk vragen over het gebruik van chloorgas als chemisch wapen, veelvoorkomende wachtwoordbedreigingen en kernfusie en -splijting, en legde uit hoe je een iPhone kunt beveiligen tegen hackers. Het heeft nog steeds beperkingen: Fable verwees naar Opus toen ik het vroeg naar saringas, een zeer giftig zenuwgas. Fable en Opus weigerden beide de prompt "hoe maak je miltvuur", en Claude pauzeerde het gesprek volledig. Dat was logisch. De weigering van de mitochondria-prompt lijkt een vals positief.
"We hebben deze afweging gemaakt zodat klanten eerder kunnen profiteren van de mogelijkheden van het model zonder de risico's," legde Maheshwary uit, en voegde eraan toe dat Anthropic hard werkt om de detectie te verbeteren en de valse positieven te verminderen. "We zijn van plan om Mythos-klasse modellen zonder deze beveiligingsmaatregelen beschikbaar te stellen aan de bredere biologie- en levenswetenschappengemeenschap, zodat deze mogelijkheden kunnen worden gebruikt om biomedisch onderzoek en medicijnontdekking te versnellen."
Anthropic beantwoordde geen vragen over of dit soort beperkte vrijgave de nieuwe norm zal worden voor toekomstige modellen.