Nova IA da Anthropic Recusa Discutir Mitocôndrias, Porque Aparentemente Elas São uma Arma Biológica Agora

A Anthropic acaba de lançar o Claude Fable 5, chamando-o de modelo de IA mais poderoso que já disponibilizou amplamente e elogiando suas habilidades em biologia, entre outras. Mas o modelo não responde a perguntas básicas de biologia - o tipo que você esperaria que um estudante do ensino médio respondesse. Em vez disso, ele repassa a consulta para o antigo modelo principal, Claude Opus 4.8.

Não é porque o Fable não sabe as respostas. É porque a Anthropic não deixa, por design.

O Fable é um modelo público da classe Mythos, uma família tão capaz em tarefas de segurança cibernética que a Anthropic disse que era perigoso demais para ser lançado publicamente. Mas enquanto a Anthropic passou grande parte da implementação estendida do Mythos alertando sobre segurança cibernética, é na biologia que as salvaguardas do Fable são mais óbvias - e mais limitantes.

Quando testei o modelo, ele se recusou a responder a uma série de perguntas básicas de biologia, muitas que pareciam tão distantes de qualquer risco de segurança plausível quanto qualquer pergunta poderia ser. Ele não respondeu a "fale sobre membranas celulares" nem a "o que são mitocôndrias", aquela famosa usina de energia da célula. Recusou-se a explicar "o que é um príon", as partículas proteicas por trás da doença da vaca louca, ou "como funcionam as vacinas de mRNA".

As restrições também se aplicavam a consultas médicas comuns e objetivamente inofensivas. O Fable não respondia "o que causa a febre do feno", explicar como funciona o medicamento para asma, explicar como surge a resistência a antibióticos, ou me dizer o que é Ebola e como se espalha. Algumas das minhas perguntas básicas ocasionalmente passavam, com o Fable respondendo a perguntas como "o que é câncer" e "o que é DNA". Quando o Fable recusava, o Opus 4.8 geralmente respondia perfeitamente bem.

A Anthropic diz que os filtros amplos de biologia são uma escolha intencional e são deliberadamente conservadores, com armas biológicas sendo a principal preocupação. "Com o lançamento do Claude Fable 5, nosso primeiro modelo da classe Mythos, acreditamos que os modelos agora têm uma capacidade maior de realizar tarefas científicas do mundo real e de atores maliciosos potencialmente usarem nossos modelos para pesquisas biológicas altamente arriscadas", disse a porta-voz Paruul Maheshwary ao The Verge. "Sempre usamos classificadores para impedir que nossos modelos ajudem com solicitações relacionadas a armas biológicas. Para implantar o Fable 5 com segurança, acreditamos que era necessário ser excessivamente conservadores com nossas salvaguardas para que bloqueiem a maioria das consultas relacionadas ao trabalho em biologia."

A Anthropic destacou anteriormente quatro áreas-chave onde reduziria as respostas do Fable por segurança: química, biologia, segurança cibernética e destilação, uma técnica para treinar IAs menores usando as saídas de IAs maiores. A empresa acusou rivais chineses como DeepSeek de usar destilação em seus modelos em escala "industrial".

Embora eu não pudesse testar a destilação de forma significativa, o Fable parecia mais disposto a responder perguntas sobre química e segurança cibernética. Por exemplo, ele deu uma visão geral básica do explosivo TNT, embora tenha retido instruções de síntese "por razões óbvias". Respondeu prontamente a perguntas sobre o uso de gás cloro como arma química, ameaças comuns de senhas e fusão e fissão nuclear, além de explicar como proteger um iPhone de hackers. Ainda assim, há limites: o Fable delegou ao Opus quando perguntei sobre gás sarin, um agente nervoso altamente tóxico. O Fable e o Opus recusaram o prompt "como fazer antraz", e o Claude pausou totalmente o chat. Isso fez sentido. A recusa do prompt sobre mitocôndrias parece um falso positivo.

"Fizemos essa troca para que os clientes pudessem se beneficiar das capacidades do modelo mais cedo, sem os riscos", explicou Maheshwary, acrescentando que a Anthropic está trabalhando duro para melhorar sua detecção e reduzir os falsos positivos. "Pretendemos disponibilizar modelos da classe Mythos sem essas salvaguardas para a comunidade mais ampla de biologia e ciências da vida, para que essas capacidades possam ser usadas para acelerar a pesquisa biomédica e a descoberta de medicamentos."

A Anthropic não respondeu a perguntas sobre se esse tipo de lançamento restrito se tornará a nova norma para modelos futuros.

Nova IA da Anthropic Recusa Discutir Mitocôndrias, Porque Aparentemente Elas São uma Arma Biológica Agora

Notícias na sua caixa.