Il nuovo strumento di una startup ti permette di sbirciare nel cervello dell'IA e abbassare il volume delle sue allucinazioni

Goodfire ha rilasciato Silico, uno strumento che permette di sbirciare dentro i modelli di IA e regolarne i parametri durante l'addestramento, riducendo le allucinazioni e trasformando l'alchimia in qualcosa che si avvicina all'ingegneria.

La startup Goodfire, con sede a San Francisco, ha rilasciato uno strumento chiamato Silico che permette a ricercatori e ingegneri di guardare dentro un modello di IA e regolare i suoi parametri - le impostazioni che determinano il comportamento del modello - durante l'addestramento. Questo potrebbe dare ai creatori di modelli un controllo più granulare su come questa tecnologia viene costruita di quanto si pensasse possibile, a patto che non gli dispiaccia sporcarsi un po' le mani.

Goodfire sostiene che Silico sia il primo strumento standard del suo genere che può aiutare gli sviluppatori a debuggare tutte le fasi del processo di sviluppo, dalla costruzione di un dataset all'addestramento di un modello. L'azienda dice che la sua missione è rendere la costruzione di modelli di IA meno simile all'alchimia e più simile a una scienza. Certo, LLM come ChatGPT e Gemini possono fare cose incredibili. Ma nessuno sa esattamente come o perché funzionano, e questo può rendere difficile correggere i loro difetti o bloccare comportamenti indesiderati.

"Abbiamo visto questo divario crescente tra quanto bene i modelli fossero compresi e quanto ampiamente venissero distribuiti," dice Eric Ho, CEO di Goodfire, a MIT Technology Review in una chat esclusiva prima del rilascio di Silico. "Penso che il sentimento dominante in ogni singolo grande laboratorio di frontiera oggi sia che hai solo bisogno di più scala, più potenza di calcolo, più dati, e poi ottieni AGI [intelligenza generale artificiale] e nient'altro conta. E noi diciamo no, c'è un modo migliore."

Goodfire è una delle poche aziende, tra cui i leader del settore Anthropic, OpenAI e Google DeepMind, che stanno pionierando una tecnica nota come interpretabilità meccanicistica, che mira a capire cosa succede dentro un modello di IA quando esegue un compito mappando i suoi neuroni e i percorsi tra di loro. (MIT Technology Review ha scelto l'interpretabilità meccanicistica come una delle sue 10 tecnologie rivoluzionarie del 2026, quindi sapete che è legittima.) Goodfire vuole usare questo approccio non solo per fare audit dei modelli - cioè studiare quelli già addestrati - ma per aiutarne la progettazione fin dall'inizio.

"Vogliamo rimuovere il tentativo ed errore e trasformare l'addestramento dei modelli in ingegneria di precisione," dice Ho. "E questo significa esporre le manopole e i quadranti in modo che tu possa effettivamente usarli durante il processo di addestramento." Goodfire ha già usato le sue tecniche e strumenti per modificare i comportamenti degli LLM - per esempio, riducendo il numero di allucinazioni che producono. Con Silico, l'azienda sta ora impacchettando molte di quelle tecniche interne e spedendole come prodotto.

Lo strumento usa agenti per automatizzare gran parte del lavoro complesso. "Gli agenti sono ora abbastanza forti da fare molto del lavoro di interpretabilità che facevamo usando umani," dice Ho. "Questa era più o meno la lacuna che doveva essere colmata prima che questa fosse effettivamente una piattaforma praticabile che i clienti potessero usare da soli."

Leonard Bereska, ricercatore all'Università di Amsterdam che ha lavorato sull'interpretabilità meccanicistica, pensa che Silico sembri uno strumento utile. Ma si oppone alle più ambiziose aspirazioni di Goodfire. "In realtà, stanno aggiungendo precisione all'alchimia," dice. "Chiamarlo ingegneria lo fa sembrare più basato su principi di quanto non sia."

Silico ti permette di ingrandire parti specifiche di un modello addestrato, come singoli neuroni o gruppi di neuroni, e fare esperimenti per vedere cosa fanno quei neuroni. (A patto che tu abbia accesso ai meccanismi interni del modello. La maggior parte delle persone non potrà usare Silico per curiosare dentro ChatGPT o Gemini, ma puoi usarlo per guardare i parametri dentro molti modelli open-source.) Puoi poi controllare quali input fanno scattare diversi neuroni, e tracciare i percorsi a monte e a valle di un neurone per vedere come altri neuroni lo influenzano e come esso influenza altri neuroni a sua volta.

Per esempio, Goodfire ha trovato un neurone dentro il modello open-source Qwen 3 che era associato al cosiddetto problema del carrello. Attivare questo neurone cambiava le risposte del modello, facendogli inquadrare i suoi output come espliciti dilemmi morali. "Quando questo neurone è attivo, succedono cose strane di ogni tipo," dice Ho. Individuare la fonte di comportamenti strani

Il nuovo strumento di una startup ti permette di sbirciare nel cervello dell'IA e abbassare il volume delle sue allucinazioni

Notizie nella tua casella.