Anthropic tocmai a lansat Claude Fable 5, numindu-l cel mai puternic model AI pe care l-a făcut vreodată disponibil pe scară largă și lăudându-i abilitățile în biologie, printre altele. Dar modelul nu va răspunde la întrebări de bază de biologie - genul pe care te-ai aștepta ca un elev de liceu să le rezolve. În schimb, redirecționează întrebarea către fostul model emblematic, Claude Opus 4.8.
Nu pentru că Fable nu știe răspunsurile. Ci pentru că Anthropic nu îi permite, prin design.
Fable este un model public, din clasa Mythos, o familie atât de capabilă în sarcini de securitate cibernetică încât Anthropic a spus că era prea periculos să fie lansat public. Dar, în timp ce Anthropic a petrecut o mare parte din lansarea extinsă Mythos avertizând despre securitatea cibernetică, în biologie este locul unde gardurile de protecție ale lui Fable sunt cele mai evidente - și cele mai restrictive.
Când am încercat modelul, a refuzat să răspundă la o serie de întrebări de bază de biologie, multe dintre ele părând la fel de departe de orice risc plauzibil de siguranță pe cât poate fi o întrebare. Nu a răspuns la „spune-mi despre membranele celulare” sau la „ce sunt mitocondriile”, acea celebră centrală energetică a celulei. A refuzat să explice „ce este un prion”, particulele proteice din spatele bolii vacii nebune, sau „cum funcționează vaccinurile ARNm”.
Restricțiile s-au aplicat și întrebărilor medicale obișnuite și obiectiv inofensive. Fable nu a răspuns la „ce cauzează febra fânului”, nu a explicat cum funcționează medicamentele pentru astm, cum apare rezistența la antibiotice sau ce este Ebola și cum se răspândește. Unele dintre întrebările mele de bază au trecut ocazional, Fable răspunzând la întrebări precum „ce este cancerul” și „ce este ADN-ul”. Când Fable refuza, Opus 4.8 răspundea în general perfect.
Anthropic spune că filtrele largi de biologie sunt o alegere intenționată și sunt în mod deliberat conservatoare, armele biologice fiind principala preocupare. „Odată cu lansarea lui Claude Fable 5, primul nostru model din clasa Mythos, credem că modelele au acum o capacitate mai mare de a îndeplini sarcini științifice din lumea reală și pentru actorii rău intenționați de a folosi potențial modelele noastre pentru cercetări biologice extrem de riscante”, a declarat purtătoarea de cuvânt Paruul Maheshwary pentru The Verge. „Am folosit întotdeauna clasificatori pentru a împiedica modelele noastre să ajute cu cererile legate de arme biologice. Pentru a implementa Fable 5 în siguranță, am considerat că este necesar să fim exagerat de conservatori cu măsurile noastre de siguranță, astfel încât acestea să blocheze majoritatea întrebărilor legate de munca în biologie.”
Anthropic a evidențiat anterior patru domenii cheie în care va limita răspunsurile lui Fable din motive de siguranță: chimie, biologie, securitate cibernetică și distilare, o tehnică de antrenare a AI-urilor mai mici folosind ieșirile celor mai mari. Compania a acuzat rivalii chinezi precum DeepSeek de utilizarea distilării pe modelele sale la scară „industrială”.
Deși nu am putut testa în mod semnificativ distilarea, Fable părea mai dispus să răspundă la întrebări despre chimie și securitate cibernetică. De exemplu, a oferit o prezentare generală de bază a explozivului TNT, deși a reținut instrucțiunile de sinteză „din motive evidente”. A răspuns cu ușurință la întrebări despre utilizarea gazului de clor ca armă chimică, amenințările comune la adresa parolelor și fuziunea și fisiunea nucleară, precum și explicarea modului de securizare a unui iPhone împotriva hackerilor. Încă limitează: Fable a delegat lui Opus când l-am întrebat despre gazul sarin, un agent neurotoxic extrem de toxic. Fable și Opus au refuzat ambele promptul „cum se face antrax”, iar Claude a întrerupt complet chatul. Asta avea sens. Refuzul promptului despre mitocondrii pare un fals pozitiv.
„Am făcut acest compromis pentru ca clienții să poată beneficia mai devreme de capacitățile modelului fără riscuri”, a explicat Maheshwary, adăugând că Anthropic lucrează din greu pentru a-și îmbunătăți detectarea și a reduce falsurile pozitive. „Intenționăm să facem modelele din clasa Mythos disponibile fără aceste măsuri de siguranță comunității mai largi de biologie și științe ale vieții, astfel încât aceste capacități să poată fi utilizate pentru a accelera cercetarea biomedicală și descoperirea de medicamente.”
Anthropic nu a răspuns la întrebări despre dacă acest tip de lansare restricționată va deveni noua normă pentru modelele viitoare.