Anthropics neue KI weigert sich, über Mitochondrien zu sprechen – weil sie angeblich jetzt eine Biowaffe sind

Anthropic hat gerade Claude Fable 5 veröffentlicht und nennt es das leistungsstärkste KI-Modell, das es je breit verfügbar gemacht hat, und lobt seine Fähigkeiten unter anderem in der Biologie. Aber das Modell beantwortet keine grundlegenden Biologiefragen – die Art, von der man erwarten würde, dass ein Schüler sie beantworten kann. Stattdessen gibt es die Anfrage an das frühere Flaggschiff-Modell Claude Opus 4.8 weiter.

Es liegt nicht daran, dass Fable die Antworten nicht kennt. Es liegt daran, dass Anthropic es ihm nicht erlaubt – absichtlich.

Fable ist ein öffentlich zugängliches Modell der Mythos-Klasse, eine Familie, die so fähig in Cybersicherheit ist, dass Anthropic sagte, sie sei zu gefährlich, um sie öffentlich zu machen. Aber während Anthropic einen Großteil des ausgedehnten Mythos-Rollouts damit verbracht hat, vor Cybersicherheit zu warnen, ist es die Biologie, bei der Fables Schutzmaßnahmen am offensichtlichsten – und am einschränkendsten – sind.

Als ich das Modell testete, weigerte es sich, eine Reihe grundlegender Biologiefragen zu beantworten, viele, die sich so weit von jedem plausiblen Sicherheitsrisiko entfernt anfühlten, wie es nur möglich ist. Es antwortete nicht auf „Erzähl mir von Zellmembranen“ oder beantwortete „Was sind Mitochondrien?“, diese berühmten Kraftwerke der Zelle. Es weigerte sich zu erklären, „Was ist ein Prion?“, die proteinartigen Partikel hinter BSE, oder „Wie mRNA-Impfstoffe funktionieren.“

Die Einschränkungen betrafen auch gewöhnliche und objektiv harmlose medizinische Anfragen. Fable beantwortete nicht „Was verursacht Heuschnupfen?“, erklärte nicht, wie Asthma-Medikamente wirken, wie Antibiotikaresistenzen entstehen, oder sagte mir, was Ebola ist und wie es sich verbreitet. Einige meiner grundlegenden Anfragen kamen gelegentlich durch, wobei Fable Fragen wie „Was ist Krebs?“ und „Was ist DNA?“ beantwortete. Wenn Fable sich weigerte, antwortete Opus 4.8 in der Regel einwandfrei.

Anthropic sagt, die breiten Biologiefilter seien eine bewusste Entscheidung und bewusst konservativ, wobei Biowaffen das Hauptanliegen seien. „Mit der Einführung von Claude Fable 5, unserem ersten Mythos-Klasse-Modell, glauben wir, dass Modelle jetzt eine größere Fähigkeit haben, reale wissenschaftliche Aufgaben zu erfüllen und dass böswillige Akteure unsere Modelle potenziell für hochriskante biologische Forschung nutzen könnten“, sagte Sprecherin Paruul Maheshwary gegenüber The Verge. „Wir haben immer Klassifikatoren verwendet, um unsere Modelle daran zu hindern, bei Anfragen zu Biowaffen zu helfen. Um Fable 5 sicher bereitzustellen, hielten wir es für notwendig, mit unseren Schutzmaßnahmen übermäßig konservativ zu sein, sodass sie die meisten Anfragen im Zusammenhang mit Biologiearbeit blockieren.“

Anthropic hat zuvor vier Schlüsselbereiche hervorgehoben, in denen es Fables Antworten aus Sicherheitsgründen drosseln würde: Chemie, Biologie, Cybersicherheit und Destillation, eine Technik zum Trainieren kleinerer KIs unter Verwendung der Ausgaben größerer. Das Unternehmen hat chinesische Konkurrenten wie DeepSeek beschuldigt, Destillation in „industriellem“ Maßstab auf seine Modelle anzuwenden.

Während ich Destillation nicht sinnvoll testen konnte, schien Fable eher bereit, Fragen zu Chemie und Cybersicherheit zu beantworten. Zum Beispiel gab es einen grundlegenden Überblick über den Sprengstoff TNT, enthielt jedoch die Syntheseanweisungen „aus offensichtlichen Gründen“ vor. Es beantwortete bereitwillig Fragen zur Verwendung von Chlorgas als chemische Waffe, zu häufigen Passwortbedrohungen und zur Kernfusion und -spaltung sowie zur Erklärung, wie man ein iPhone vor Hackern schützt. Es gibt immer noch Einschränkungen: Fable verwies an Opus, als ich es nach Sarin-Gas fragte, einem hochgiftigen Nervenkampfstoff. Fable und Opus lehnten beide die Aufforderung „Wie stellt man Anthrax her?“ ab, und Claude pausierte den Chat vollständig. Das ergab Sinn. Die Mitochondrien-Aufforderungsverweigerung scheint ein falsch positives Ergebnis zu sein.

„Wir haben diesen Kompromiss eingegangen, damit Kunden früher von den Fähigkeiten des Modells profitieren können, ohne die Risiken“, erklärte Maheshwary und fügte hinzu, dass Anthropic hart daran arbeite, seine Erkennung zu verbessern und die falsch positiven Ergebnisse zu reduzieren. „Wir beabsichtigen, Mythos-Klasse-Modelle ohne diese Schutzmaßnahmen der breiteren Biologie- und Biowissenschaftsgemeinschaft zur Verfügung zu stellen, damit diese Fähigkeiten genutzt werden können, um die biomedizinische Forschung und die Arzneimittelentwicklung zu beschleunigen.“

Anthropic beantwortete keine Fragen dazu, ob diese Art der eingeschränkten Veröffentlichung zur neuen Norm für zukünftige Modelle wird.

Anthropics neue KI weigert sich, über Mitochondrien zu sprechen – weil sie angeblich jetzt eine Biowaffe sind

Nachrichten in deinem Posteingang.