La startup Goodfire, basée à San Francisco, a lancé un outil appelé Silico qui permet aux chercheurs et aux ingénieurs de scruter l'intérieur d'un modèle d'IA et d'ajuster ses paramètres – les réglages qui déterminent le comportement d'un modèle – pendant l'entraînement. Cela pourrait donner aux fabricants de modèles un contrôle plus fin sur la construction de cette technologie qu'on ne le pensait possible, à condition qu'ils n'aient pas peur de se salir un peu les mains.
Goodfire affirme que Silico est le premier outil standard de ce type qui aide les développeurs à déboguer toutes les étapes du processus de développement, de la construction d'un ensemble de données à l'entraînement d'un modèle. L'entreprise dit que sa mission est de rendre la construction de modèles d'IA moins alchimique et plus scientifique. Certes, les LLM comme ChatGPT et Gemini peuvent faire des choses incroyables. Mais personne ne sait exactement comment ni pourquoi ils fonctionnent, ce qui peut rendre difficile la correction de leurs défauts ou le blocage de comportements indésirables.
« Nous avons vu cet écart grandissant entre la compréhension des modèles et leur déploiement massif », déclare Eric Ho, PDG de Goodfire, à MIT Technology Review lors d'un entretien exclusif avant la sortie de Silico. « Je pense que le sentiment dominant dans chaque grand laboratoire de pointe aujourd'hui est qu'il faut juste plus d'échelle, plus de calcul, plus de données, et ensuite on obtient l'AGI [intelligence générale artificielle] et rien d'autre n'a d'importance. Et nous disons non, il y a une meilleure façon. »
Goodfire est l'une des rares entreprises, dont les leaders de l'industrie Anthropic, OpenAI et Google DeepMind, à être pionnière dans une technique connue sous le nom d'interprétabilité mécaniste, qui vise à comprendre ce qui se passe à l'intérieur d'un modèle d'IA lorsqu'il exécute une tâche en cartographiant ses neurones et les voies qui les relient. (MIT Technology Review a classé l'interprétabilité mécaniste parmi ses 10 technologies de rupture de 2026, donc vous savez que c'est sérieux.) Goodfire veut utiliser cette approche non seulement pour auditer les modèles – c'est-à-dire étudier ceux qui ont déjà été entraînés – mais aussi pour aider à les concevoir dès le départ.
« Nous voulons éliminer les essais et erreurs et transformer l'entraînement des modèles en ingénierie de précision », dit Ho. « Et cela signifie exposer les boutons et les cadrans pour que vous puissiez réellement les utiliser pendant le processus d'entraînement. » Goodfire a déjà utilisé ses techniques et outils pour ajuster les comportements des LLM – par exemple, réduire le nombre d'hallucinations qu'ils produisent. Avec Silico, l'entreprise regroupe désormais bon nombre de ces techniques internes et les commercialise sous forme de produit.
L'outil utilise des agents pour automatiser une grande partie du travail complexe. « Les agents sont désormais assez puissants pour effectuer une grande partie du travail d'interprétabilité que nous faisions avec des humains », dit Ho. « C'était le genre de fossé qu'il fallait combler avant que ce soit une plateforme viable que les clients puissent utiliser eux-mêmes. »
Leonard Bereska, chercheur à l'Université d'Amsterdam qui a travaillé sur l'interprétabilité mécaniste, pense que Silico a l'air d'un outil utile. Mais il conteste les aspirations plus élevées de Goodfire. « En réalité, ils ajoutent de la précision à l'alchimie », dit-il. « Appeler cela ingénierie donne l'impression que c'est plus rigoureux que ça ne l'est. »
Silico vous permet de zoomer sur des parties spécifiques d'un modèle entraîné, comme des neurones individuels ou des groupes de neurones, et de mener des expériences pour voir ce que ces neurones font. (À condition d'avoir accès aux rouages internes du modèle. La plupart des gens ne pourront pas utiliser Silico pour fouiller dans ChatGPT ou Gemini, mais vous pouvez l'utiliser pour examiner les paramètres de nombreux modèles open-source.) Vous pouvez ensuite vérifier quelles entrées font réagir différents neurones, et tracer les voies en amont et en aval d'un neurone pour voir comment d'autres neurones l'affectent et comment il affecte les autres neurones à son tour.
Par exemple, Goodfire a trouvé un neurone dans le modèle open-source Qwen 3 qui était associé au soi-disant problème du tramway. Activer ce neurone changeait les réponses du modèle, le faisant formuler ses sorties comme des dilemmes moraux explicites. « Quand ce neurone est actif, toutes sortes de choses étranges se produisent », dit Ho. Identifier la source de comportements bizarres