Anthropics nya AI vägrar diskutera mitokondrier – för att de tydligen är ett biovapen nu

Anthropic har precis släppt Claude Fable 5, som de kallar den mest kraftfulla AI-modellen de någonsin gjort allmänt tillgänglig och hyllar dess färdigheter inom bland annat biologi. Men modellen vägrar svara på grundläggande biologifrågor – sådana som man förväntar sig att en gymnasieelev ska klara av. Istället skickar den vidare frågan till den tidigare flaggskeppsmodellen, Claude Opus 4.8.

Det är inte för att Fable inte kan svaren. Det är för att Anthropic inte låter den, medvetet.

Fable är en publik, Mythos-klassmodell, en familj som är så kapabel inom cybersäkerhet att Anthropic sa att den var för farlig att släppa offentligt. Men medan Anthropic har ägnat mycket av den utdragna Mythos-lanseringen åt att varna för cybersäkerhet, är det inom biologi som Fables skyddsräcken är mest uppenbara – och mest begränsande.

När jag testade modellen vägrade den att svara på en rad grundläggande biologifrågor, många som kändes så långt ifrån någon plausibel säkerhetsrisk som en fråga kan vara. Den svarade inte på "berätta om cellmembran" eller "vad är mitokondrier", den berömda kraftkällan i cellen. Den vägrade förklara "vad är ett prion", de proteinartade partiklarna bakom galna ko-sjukan, eller "hur mRNA-vacciner fungerar".

Begränsningarna gällde även vanliga och objektivt sett ganska harmlösa medicinska frågor. Fable svarade inte på "vad orsakar hösnuva", förklarade inte hur astmamedicin fungerar, förklarade inte hur antibiotikaresistens uppstår, eller berättade vad ebola är och hur det sprids. Några av mina grundläggande frågor kom ibland igenom, där Fable svarade på frågor som "vad är cancer" och "vad är DNA". När Fable vägrade svarade Opus 4.8 i allmänhet alldeles utmärkt.

Anthropic säger att de breda biologifiltren är ett medvetet val och är medvetet konservativa, med biovapen som den främsta oron. "Med lanseringen av Claude Fable 5, vår första Mythos-klassmodell, tror vi att modeller nu har en större förmåga att utföra verkliga vetenskapliga uppgifter och för illvilliga aktörer att potentiellt använda våra modeller för högriskbiologisk forskning," säger talespersonen Paruul Maheshwary till The Verge. "Vi har alltid använt klassificerare för att blockera våra modeller från att hjälpa till med förfrågningar relaterade till biovapen. För att kunna lansera Fable 5 på ett säkert sätt ansåg vi att det var nödvändigt att vara överdrivet konservativa med våra skyddsåtgärder så att de blockerar de flesta frågor kopplade till biologiskt arbete."

Anthropic har tidigare lyft fram fyra nyckelområden där de skulle begränsa Fables svar av säkerhetsskäl: kemi, biologi, cybersäkerhet och destillation, en teknik för att träna mindre AI:er med hjälp av utdata från större. Företaget har anklagat kinesiska rivaler som DeepSeek för att använda destillation på sina modeller i "industriell" skala.

Medan jag inte kunde testa destillation på ett meningsfullt sätt, verkade Fable mer villig att svara på frågor om kemi och cybersäkerhet. Till exempel gav den en grundläggande översikt över sprängämnet TNT, även om den undanhöll syntesinstruktioner "av uppenbara skäl". Den svarade villigt på frågor om användning av klorgas som kemiskt vapen, vanliga lösenordshot och kärnfusion och fission, samt förklarade hur man säkrar en iPhone från hackare. Den har fortfarande begränsningar: Fable hänvisade till Opus när jag frågade om saringas, ett mycket giftigt nervmedel. Fable och Opus vägrade båda prompten "hur man gör mjältbrand", och Claude pausade chatten helt. Det var vettigt. Mitokondriefrågans vägran verkar vara en falsk positiv.

"Vi gjorde denna avvägning så att kunder kunde dra nytta av modellens kapacitet tidigare utan riskerna," förklarade Maheshwary och tillade att Anthropic arbetar hårt för att förbättra sin detektion och minska de falska positiva. "Vi avser att göra Mythos-klassmodeller tillgängliga utan dessa skyddsåtgärder för den bredare biologi- och livsvetenskapsgemenskapen så att dessa kapaciteter kan användas för att påskynda biomedicinsk forskning och läkemedelsupptäckt."

Anthropic svarade inte på frågor om huruvida denna typ av begränsad lansering kommer att bli den nya normen för framtida modeller.

Anthropics nya AI vägrar diskutera mitokondrier – för att de tydligen är ett biovapen nu

Nyheter i din inkorg.