Anthropic, Claude Fable 5'i piyasaya sürdü ve şimdiye kadar yaygın olarak kullanıma sunduğu en güçlü yapay zeka modeli olduğunu söyleyerek biyoloji alanındaki yeteneklerini övdü. Ancak model, bir lise öğrencisinin bile cevaplayabileceği temel biyoloji sorularını yanıtlamıyor. Bunun yerine, sorguyu eski amiral gemisi modeli Claude Opus 4.8'e devrediyor.
Bu, Fable'ın cevapları bilmediği için değil. Anthropic'in tasarım gereği buna izin vermemesi yüzünden.
Fable, halka açık bir Mythos sınıfı model. Bu aile, siber güvenlik görevlerinde o kadar yetenekli ki Anthropic, kamuya açıklanmasının çok tehlikeli olduğunu söyledi. Ancak Anthropic, genişletilmiş Mythos çıkışının çoğunu siber güvenlik konusunda uyarılarla geçirirken, Fable'ın güvenlik önlemlerinin en belirgin ve en kısıtlayıcı olduğu alan biyoloji.
Modeli denediğimde, bir dizi temel biyoloji sorusunu yanıtlamayı reddetti; bunların çoğu, olası herhangi bir güvenlik riskinden olabildiğince uzak hissettiriyordu. "Hücre zarları hakkında bilgi ver" veya "mitokondri nedir" gibi ünlü hücre güç merkezine yanıt vermedi. "Prion nedir" (deli dana hastalığının arkasındaki protein parçacıkları) veya "mRNA aşıları nasıl çalışır" sorularını yanıtlamayı reddetti.
Kısıtlamalar sıradan ve nesnel olarak oldukça zararsız tıbbi sorgular için de geçerliydi. Fable, "saman nezlesine ne sebep olur" sorusunu yanıtlamadı, astım ilacının nasıl çalıştığını, antibiyotik direncinin nasıl ortaya çıktığını açıklamadı veya Ebola'nın ne olduğunu ve nasıl yayıldığını söylemedi. Bazı temel sorgularım arada sırada geçti; Fable "kanser nedir" ve "DNA nedir" gibi soruları yanıtladı. Fable reddettiğinde, Opus 4.8 genellikle gayet iyi yanıt verdi.
Anthropic, geniş biyoloji filtrelerinin kasıtlı bir seçim olduğunu ve bilinçli olarak muhafazakar olduğunu, birincil endişenin biyolojik silahlar olduğunu söylüyor. Sözcü Paruul Maheshwary The Verge'e şunları söyledi: "İlk Mythos sınıfı modelimiz Claude Fable 5'in lansmanıyla birlikte, modellerin artık gerçek dünyadaki bilimsel görevleri yerine getirme ve kötü niyetli aktörlerin modellerimizi yüksek riskli biyolojik araştırmalar için potansiyel olarak kullanma yeteneğine sahip olduğuna inanıyoruz. Modellerimizin biyolojik silahlarla ilgili taleplere yardımcı olmasını engellemek için her zaman sınıflandırıcılar kullandık. Fable 5'i güvenli bir şekilde dağıtmak için, güvenlik önlemlerimizin aşırı muhafazakar olmasının, biyoloji çalışmalarıyla ilgili çoğu sorguyu engellemesinin gerekli olduğuna inanıyoruz."
Anthropic daha önce Fable'ın yanıtlarını güvenlik nedeniyle kısıtlayacağı dört temel alanı vurgulamıştı: kimya, biyoloji, siber güvenlik ve damıtma (daha büyük yapay zekaların çıktılarını kullanarak daha küçük yapay zekaları eğitme tekniği). Şirket, DeepSeek gibi Çinli rakipleri modellerinde "endüstriyel" ölçekte damıtma kullanmakla suçladı.
Damıtmayı anlamlı bir şekilde test edemesem de, Fable kimya ve siber güvenlikle ilgili soruları yanıtlamaya daha istekli görünüyordu. Örneğin, patlayıcı TNT hakkında temel bir genel bakış sundu, ancak "bariz nedenlerden ötürü" sentez talimatlarını vermedi. Klor gazının kimyasal silah olarak kullanımı, yaygın parola tehditleri, nükleer füzyon ve fisyon hakkındaki soruları kolayca yanıtladı ve bir iPhone'un bilgisayar korsanlarından nasıl korunacağını açıkladı. Yine de sınırlamalar var: Sarin gazı (oldukça toksik bir sinir gazı) sorduğumda Fable, Opus'a yönlendirdi. Fable ve Opus, "şarbon nasıl yapılır" istemini reddetti ve Claude sohbeti tamamen durdurdu. Bu mantıklıydı. Mitokondri istemi reddi yanlış pozitif gibi görünüyor.
Maheshwary, "Bu takası, müşterilerin riskler olmadan modelin yeteneklerinden daha erken faydalanabilmesi için yaptık," diye açıkladı ve Anthropic'in tespiti iyileştirmek ve yanlış pozitifleri azaltmak için çok çalıştığını ekledi. "Mythos sınıfı modelleri, bu yeteneklerin biyomedikal araştırmaları ve ilaç keşfini hızlandırmak için kullanılabilmesi amacıyla, daha geniş biyoloji ve yaşam bilimleri topluluğuna bu güvenlik önlemleri olmadan sunmayı planlıyoruz."
Anthropic, bu tür kısıtlı sürümün gelecekteki modeller için yeni norm haline gelip gelmeyeceği sorusunu yanıtlamadı.