Nova ferramenta de startup permite espiar o cérebro da IA e diminuir o volume de alucinações

A ferramenta Silico da Goodfire permite depurar modelos de IA como código ruim, transformando alquimia neural em algo próximo à engenharia — ou pelo menos dando uma boa esfregada.

A startup Goodfire, baseada em São Francisco, lançou uma ferramenta chamada Silico que permite que pesquisadores e engenheiros espiem dentro de um modelo de IA e ajustem seus parâmetros — as configurações que determinam o comportamento de um modelo — durante o treinamento. Isso pode dar aos criadores de modelos um controle mais refinado sobre como essa tecnologia é construída do que se pensava ser possível, desde que não se importem em sujar um pouco as mãos.

A Goodfire afirma que o Silico é a primeira ferramenta pronta para uso do tipo que pode ajudar desenvolvedores a depurar todas as etapas do processo de desenvolvimento, desde a construção de um conjunto de dados até o treinamento de um modelo. A empresa diz que sua missão é tornar a construção de modelos de IA menos como alquimia e mais como ciência. Claro, LLMs como ChatGPT e Gemini podem fazer coisas incríveis. Mas ninguém sabe exatamente como ou por que eles funcionam, e isso pode dificultar a correção de suas falhas ou o bloqueio de comportamentos indesejados.

“Vimos essa lacuna crescente entre o quão bem os modelos eram compreendidos e o quão amplamente eles estavam sendo implantados”, diz Eric Ho, CEO da Goodfire, ao MIT Technology Review em uma conversa exclusiva antes do lançamento do Silico. “Acho que o sentimento dominante em todos os grandes laboratórios de fronteira hoje é que você só precisa de mais escala, mais computação, mais dados, e então você obtém AGI [inteligência geral artificial] e nada mais importa. E estamos dizendo não, há um caminho melhor.”

A Goodfire é uma das poucas empresas, incluindo as líderes do setor Anthropic, OpenAI e Google DeepMind, que estão pioneirando uma técnica conhecida como interpretabilidade mecanicista, que visa entender o que acontece dentro de um modelo de IA quando ele executa uma tarefa, mapeando seus neurônios e os caminhos entre eles. (O MIT Technology Review elegeu a interpretabilidade mecanicista como uma de suas 10 Tecnologias Inovadoras de 2026, então você sabe que é legítimo.) A Goodfire quer usar essa abordagem não apenas para auditar modelos — isto é, estudar aqueles que já foram treinados — mas para ajudar a projetá-los desde o início.

“Queremos remover a tentativa e erro e transformar o treinamento de modelos em engenharia de precisão”, diz Ho. “E isso significa expor os botões e mostradores para que você possa realmente usá-los durante o processo de treinamento.” A Goodfire já usou suas técnicas e ferramentas para ajustar os comportamentos de LLMs — por exemplo, reduzindo o número de alucinações que eles produzem. Com o Silico, a empresa agora está empacotando muitas dessas técnicas internas e as enviando como um produto.

A ferramenta usa agentes para automatizar grande parte do trabalho complexo. “Os agentes agora são fortes o suficiente para fazer muito do trabalho de interpretabilidade que estávamos fazendo com humanos”, diz Ho. “Essa era meio que a lacuna que precisava ser preenchida antes que isso fosse realmente uma plataforma viável que os clientes pudessem usar por conta própria.”

Leonard Bereska, pesquisador da Universidade de Amsterdã que trabalhou com interpretabilidade mecanicista, acha que o Silico parece uma ferramenta útil. Mas ele contesta as aspirações mais elevadas da Goodfire. “Na realidade, eles estão adicionando precisão à alquimia”, diz ele. “Chamar isso de engenharia faz parecer mais fundamentado do que realmente é.”

O Silico permite que você amplie partes específicas de um modelo treinado, como neurônios individuais ou grupos de neurônios, e execute experimentos para ver o que esses neurônios fazem. (Supondo que você tenha acesso ao funcionamento interno do modelo. A maioria das pessoas não conseguirá usar o Silico para bisbilhotar dentro do ChatGPT ou Gemini, mas você pode usá-lo para olhar os parâmetros dentro de muitos modelos de código aberto.) Você pode então verificar quais entradas fazem diferentes neurônios dispararem e rastrear caminhos a montante e a jusante de um neurônio para ver como outros neurônios o afetam e como ele afeta outros neurônios por sua vez.

Por exemplo, a Goodfire encontrou um neurônio dentro do modelo de código aberto Qwen 3 que estava associado ao chamado problema do bonde. Ativar esse neurônio mudou as respostas do modelo, fazendo com que ele formulasse suas saídas como dilemas morais explícitos. “Quando esse neurônio está ativo, todo tipo de coisa estranha acontece”, diz Ho. Identificar a fonte de comportamentos estranhos

Nova ferramenta de startup permite espiar o cérebro da IA e diminuir o volume de alucinações

Notícias na sua caixa.