Anthropic właśnie wypuścił Claude Fable 5, nazywając go najpotężniejszym modelem AI, jaki kiedykolwiek udostępniono publicznie, i chwaląc jego umiejętności w biologii, między innymi. Ale model nie odpowie na podstawowe pytania z biologii – takie, które uczeń liceum powinien ogarnąć. Zamiast tego przekazuje zapytanie do poprzedniego flagowego modelu, Claude Opus 4.8.
Nie dlatego, że Fable nie zna odpowiedzi. To dlatego, że Anthropic mu nie pozwala, celowo.
Fable to publiczny model klasy Mythos, rodzina tak biegła w cyberbezpieczeństwie, że Anthropic uznał ją za zbyt niebezpieczną, by udostępnić publicznie. Ale podczas gdy Anthropic spędził większość rozszerzonego wdrożenia Mythos ostrzegając przed cyberbezpieczeństwem, to w biologii zabezpieczenia Fable są najbardziej widoczne – i najbardziej ograniczające.
Kiedy wypróbowałem model, odmówił odpowiedzi na szereg podstawowych pytań z biologii, wiele z nich tak odległych od jakiegokolwiek prawdopodobnego ryzyka bezpieczeństwa, jak to tylko możliwe. Nie odpowiedział na „opowiedz mi o błonach komórkowych” ani „czym są mitochondria”, tę słynną elektrownię komórki. Odmówił wyjaśnienia „czym jest prion”, białkowe cząsteczki odpowiedzialne za chorobę wściekłych krów, ani „jak działają szczepionki mRNA”.
Ograniczenia dotyczyły również zwykłych i obiektywnie dość nieszkodliwych zapytań medycznych. Fable nie odpowiedział na „co powoduje katar sienny”, nie wyjaśnił, jak działają leki na astmę, jak powstaje oporność na antybiotyki ani nie powiedział, czym jest Ebola i jak się rozprzestrzenia. Niektóre podstawowe zapytania czasami przechodziły, a Fable odpowiadał na pytania takie jak „czym jest rak” i „czym jest DNA”. Kiedy Fable odmawiał, Opus 4.8 generalnie odpowiadał doskonale.
Anthropic twierdzi, że szerokie filtry biologiczne są celowym wyborem i są celowo konserwatywne, a broń biologiczna jest głównym zmartwieniem. „Wraz z premierą Claude Fable 5, naszego pierwszego modelu klasy Mythos, wierzymy, że modele mają teraz większą zdolność do realizacji rzeczywistych zadań naukowych, a złośliwi aktorzy mogą potencjalnie wykorzystać nasze modele do wysoce ryzykownych badań biologicznych” – powiedziała The Verge rzeczniczka Paruul Maheshwary. „Zawsze używaliśmy klasyfikatorów, aby blokować naszym modelom pomoc w żądaniach związanych z bronią biologiczną. Aby bezpiecznie wdrożyć Fable 5, uznaliśmy, że konieczne jest nadmiernie konserwatywne podejście do zabezpieczeń, aby blokowały większość zapytań związanych z biologią”.
Anthropic wcześniej wskazał cztery kluczowe obszary, w których będzie ograniczać odpowiedzi Fable ze względów bezpieczeństwa: chemia, biologia, cyberbezpieczeństwo i destylacja, technika szkolenia mniejszych AI przy użyciu wyników większych. Firma oskarżyła chińskich rywali, takich jak DeepSeek, o stosowanie destylacji na swoich modelach na „przemysłową” skalę.
Chociaż nie mogłem sensownie przetestować destylacji, Fable wydawał się bardziej skłonny odpowiadać na pytania z chemii i cyberbezpieczeństwa. Na przykład udzielił podstawowego przeglądu materiału wybuchowego TNT, choć wstrzymał się z instrukcjami syntezy „z oczywistych powodów”. Chętnie odpowiadał na pytania dotyczące użycia gazu chlorowego jako broni chemicznej, typowych zagrożeń hasłami oraz syntezy i rozszczepienia jądrowego, a także wyjaśniał, jak zabezpieczyć iPhone'a przed hakerami. Wciąż są ograniczenia: Fable odesłał do Opusa, gdy zapytałem o sarin, wysoce toksyczny gaz bojowy. Fable i Opus oba odmówiły na prompt „jak zrobić wąglika”, a Claude całkowicie zatrzymał czat. To miało sens. Odmowa na mitochondrium wydaje się fałszywie pozytywna.
„Zrobiliśmy ten kompromis, aby klienci mogli szybciej korzystać z możliwości modelu bez ryzyka” – wyjaśnił Maheshwary, dodając, że Anthropic ciężko pracuje nad poprawą wykrywania i redukcją fałszywych alarmów. „Zamierzamy udostępnić modele klasy Mythos bez tych zabezpieczeń szerszej społeczności biologii i nauk przyrodniczych, aby te możliwości mogły być wykorzystane do przyspieszenia badań biomedycznych i odkrywania leków”.
Anthropic nie odpowiedział na pytania, czy tego rodzaju ograniczone udostępnienie stanie się nową normą dla przyszłych modeli.