Na quinta-feira, a Anthropic lançou o Opus 4.8, a versão mais recente de seu modelo público mais avançado. O modelo está disponível em todos os lugares, com preço padrão no mesmo nível do lançamento anterior do Opus - porque nada diz "inovação" como cobrar o mesmo valor por um produto ligeiramente menos decepcionante.
O novo modelo chega apenas 41 dias após o lançamento do Opus 4.7, um ciclo de atualização muito mais rápido que o normal para a Anthropic. (Os modelos Sonnet e Haiku mais recentes têm três e sete meses, respectivamente.) A rápida reviravolta pode ter algo a ver com a recepção fria ao Opus 4.7, que alguns usuários acharam decepcionante - o que, em tech-speak, significa "todo mundo revirou os olhos".
Esse intervalo também viu lançamentos significativos do Codex da OpenAI e do modelo Gemini Flash do Google, aumentando a pressão sobre a Anthropic para acompanhar o ritmo. Nada como uma rivalidade entre irmãos para fazer o código fluir.
O Opus 4.8 vem com os esperados resultados de benchmark de primeira linha, mas também há atenção especial em como o modelo gerencia dados ruins ou incertos. No post de lançamento, os primeiros testadores da Anthropic descobriram que o novo modelo é "mais propenso a sinalizar incertezas sobre seu trabalho e menos propenso a fazer afirmações sem fundamento". Em outras palavras, finalmente está aprendendo a dizer "não sei" em vez de alucinar com confiança.
Ecoando esse ponto, um depoimento da Bridgewater Associates disse que a maior diferença na atualização foi "a tendência do Opus 4.8 de sinalizar proativamente problemas com as entradas e saídas de uma análise, algo que outros modelos rotineiramente perdiam e deixavam para os usuários pegarem". Então é basicamente o colega de escritório que aponta os erros na planilha antes que o chefe os veja.
Junto com o novo modelo, a Anthropic lançou um recurso chamado Dynamic Workflows, que estará disponível em preview de pesquisa. O sistema é projetado para ajudar modelos maiores como o Opus a gerenciar tarefas complexas em centenas de subagentes paralelos. Porque uma IA gerenciando mil tarefas não era ambiciosa o suficiente.
"Claude Code junto com Opus 4.8 agora pode realizar migrações em escala de código-fonte em centenas de milhares de linhas de código, do início à mesclagem, com o conjunto de testes existente como referência", explica o post. Isso é muito código para um modelo que acabou de aprender a admitir que está confuso.
A Anthropic ainda está segurando seu modelo mais avançado, Mythos, após uma prévia provisória no mês passado levantar preocupações de segurança cibernética. No entanto, a empresa insinuou no lançamento do Opus de hoje que o período de prévia do Mythos pode terminar em breve, assim que as salvaguardas necessárias estiverem completas.
"Estamos fazendo progressos rápidos no desenvolvimento dessas salvaguardas e esperamos poder trazer modelos da classe Mythos para todos os nossos clientes nas próximas semanas", escreveu a empresa. Tradução: "Quase descobrimos como impedi-lo de lançar acidentalmente bombas nucleares."