Il nuovo AI di Anthropic si rifiuta di parlare di mitocondri, perché a quanto pare ora sono un'arma biologica

Anthropic ha appena rilasciato Claude Fable 5, definendolo il modello AI più potente mai reso ampiamente disponibile e lodando le sue competenze in biologia, tra le altre. Ma il modello non risponde a domande di biologia di base – il tipo di domande che ci si aspetterebbe da uno studente delle superiori. Invece, passa la richiesta al precedente modello di punta, Claude Opus 4.8.

Non è che Fable non conosca le risposte. È che Anthropic non glielo permette, per progettazione.

Fable è un modello pubblico di classe Mythos, una famiglia così capace in compiti di cybersicurezza che Anthropic ha detto che era troppo pericoloso rilasciarlo pubblicamente. Ma mentre Anthropic ha passato gran parte del rollout esteso di Mythos a mettere in guardia sulla cybersicurezza, è nella biologia che i guardrail di Fable sono più evidenti – e più limitanti.

Quando ho provato il modello, si è rifiutato di rispondere a una serie di domande di biologia di base, molte delle quali sembravano lontane anni luce da qualsiasi plausibile rischio di sicurezza. Non ha risposto a "parlami delle membrane cellulari" o a "cosa sono i mitocondri", quella famosa centrale energetica della cellula. Si è rifiutato di spiegare "cosa sono i prioni", le particelle proteiche responsabili del morbo della mucca pazza, o "come funzionano i vaccini a mRNA".

Le restrizioni si applicavano anche a domande mediche ordinarie e oggettivamente piuttosto innocue. Fable non rispondeva a "cosa causa la febbre da fieno", non spiegava come funzionano i medicinali per l'asma, non spiegava come si sviluppa la resistenza agli antibiotici, né mi diceva cos'è l'Ebola e come si diffonde. Alcune delle mie domande di base occasionalmente passavano, con Fable che rispondeva a domande come "cos'è il cancro" e "cos'è il DNA". Quando Fable si rifiutava, Opus 4.8 generalmente rispondeva perfettamente.

Anthropic dice che i filtri ampi sulla biologia sono una scelta intenzionale e sono deliberatamente conservativi, con le armi biologiche come preoccupazione principale. "Con il lancio di Claude Fable 5, il nostro primo modello di classe Mythos, crediamo che i modelli ora abbiano una maggiore capacità di realizzare compiti scientifici nel mondo reale e che attori malintenzionati possano potenzialmente usare i nostri modelli per ricerche biologiche ad alto rischio," ha detto a The Verge la portavoce Paruul Maheshwary. "Abbiamo sempre usato classificatori per impedire ai nostri modelli di aiutare con richieste relative ad armi biologiche. Per distribuire Fable 5 in sicurezza, crediamo sia stato necessario essere eccessivamente conservativi con le nostre salvaguardie in modo che blocchino la maggior parte delle richieste legate al lavoro in biologia."

Anthropic ha precedentemente evidenziato quattro aree chiave in cui avrebbe limitato le risposte di Fable per sicurezza: chimica, biologia, cybersicurezza e distillazione, una tecnica per addestrare AI più piccoli usando gli output di quelli più grandi. L'azienda ha accusato rivali cinesi come DeepSeek di usare la distillazione sui suoi modelli su scala "industriale".

Anche se non ho potuto testare significativamente la distillazione, Fable sembrava più disposto a rispondere a domande su chimica e cybersicurezza. Per esempio, ha dato una panoramica di base dell'esplosivo TNT, anche se ha trattenuto le istruzioni di sintesi "per ovvie ragioni". Ha risposto prontamente a domande sull'uso del gas cloro come arma chimica, sulle minacce comuni alle password e sulla fusione e fissione nucleare, oltre a spiegare come proteggere un iPhone dagli hacker. Ha ancora dei limiti: Fable ha rimandato a Opus quando gli ho chiesto del gas sarin, un agente nervino altamente tossico. Fable e Opus hanno entrambi rifiutato il prompt "come fare l'antrace", e Claude ha messo in pausa la chat completamente. Questo aveva senso. Il rifiuto sul prompt dei mitocondri sembra un falso positivo.

"Abbiamo fatto questo compromesso in modo che i clienti possano beneficiare delle capacità del modello prima senza i rischi," ha spiegato Maheshwary, aggiungendo che Anthropic sta lavorando sodo per migliorare la sua rilevazione e ridurre i falsi positivi. "Intendiamo rendere disponibili i modelli di classe Mythos senza queste salvaguardie alla più ampia comunità di biologia e scienze della vita in modo che queste capacità possano essere utilizzate per accelerare la ricerca biomedica e la scoperta di farmaci."

Anthropic non ha risposto a domande su se questo tipo di rilascio limitato diventerà la nuova norma per i modelli futuri.

Il nuovo AI di Anthropic si rifiuta di parlare di mitocondri, perché a quanto pare ora sono un'arma biologica

Notizie nella tua casella.