De in San Francisco gevestigde startup Goodfire heeft een tool genaamd Silico uitgebracht waarmee onderzoekers en ingenieurs in een AI-model kunnen kijken en de parameters kunnen aanpassen - de instellingen die het gedrag van een model bepalen - tijdens de training. Dit zou modelbouwers meer fijnmazige controle kunnen geven over hoe deze technologie wordt gebouwd dan ooit mogelijk werd geacht, ervan uitgaande dat ze er geen probleem mee hebben hun handen een beetje vuil te maken.
Goodfire beweert dat Silico de eerste kant-en-klare tool in zijn soort is die ontwikkelaars kan helpen bij het debuggen van alle stadia van het ontwikkelingsproces, van het bouwen van een dataset tot het trainen van een model. Het bedrijf zegt dat zijn missie is om het bouwen van AI-modellen minder op alchemie te laten lijken en meer op een wetenschap. Zeker, LLM's zoals ChatGPT en Gemini kunnen geweldige dingen doen. Maar niemand weet precies hoe of waarom ze werken, en dat kan het moeilijk maken om hun fouten te verhelpen of ongewenst gedrag te blokkeren.
"We zagen deze groeiende kloof tussen hoe goed modellen werden begrepen en hoe breed ze werden ingezet," vertelt Eric Ho, CEO van Goodfire, aan MIT Technology Review in een exclusief gesprek voorafgaand aan de release van Silico. "Ik denk dat het dominante gevoel in elk groot grensverleggend lab tegenwoordig is dat je gewoon meer schaal, meer rekenkracht, meer data nodig hebt, en dan krijg je AGI [artificiële algemene intelligentie] en doet de rest er niet toe. En wij zeggen nee, er is een betere manier."
Goodfire is een van een handvol bedrijven, waaronder industriereuzen Anthropic, OpenAI en Google DeepMind, die een techniek pionieren die bekend staat als mechanistische interpreteerbaarheid, die tot doel heeft te begrijpen wat er in een AI-model gebeurt wanneer het een taak uitvoert door de neuronen en de paden ertussen in kaart te brengen. (MIT Technology Review heeft mechanistische interpreteerbaarheid uitgeroepen tot een van de 10 baanbrekende technologieën van 2026, dus je weet dat het legitiem is.) Goodfire wil deze aanpak niet alleen gebruiken om modellen te auditen - dat wil zeggen, het bestuderen van modellen die al zijn getraind - maar ook om ze vanaf het begin te helpen ontwerpen.
"We willen het trial-and-error wegnemen en het trainen van modellen omzetten in precisietechniek," zegt Ho. "En dat betekent het blootleggen van de knoppen en schakelaars zodat je ze daadwerkelijk kunt gebruiken tijdens het trainingsproces." Goodfire heeft zijn technieken en tools al gebruikt om het gedrag van LLM's aan te passen - bijvoorbeeld door het aantal hallucinaties dat ze produceren te verminderen. Met Silico verpakt het bedrijf nu veel van die interne technieken en levert ze als product.
De tool gebruikt agents om veel van het complexe werk te automatiseren. "Agents zijn nu sterk genoeg om veel van het interpreteerbaarheidswerk te doen dat we voorheen met mensen deden," zegt Ho. "Dat was een beetje de kloof die moest worden overbrugd voordat dit een levensvatbaar platform was dat klanten zelf konden gebruiken."
Leonard Bereska, een onderzoeker aan de Universiteit van Amsterdam die aan mechanistische interpreteerbaarheid heeft gewerkt, vindt dat Silico eruitziet als een nuttige tool. Maar hij verzet zich tegen de hogere ambities van Goodfire. "In werkelijkheid voegen ze precisie toe aan de alchemie," zegt hij. "Het techniek noemen doet het klinken alsof het principiëler is dan het is."
Silico laat je inzoomen op specifieke delen van een getraind model, zoals individuele neuronen of groepen neuronen, en experimenten uitvoeren om te zien wat die neuronen doen. (Ervan uitgaande dat je toegang hebt tot de innerlijke werking van het model. De meeste mensen zullen Silico niet kunnen gebruiken om in ChatGPT of Gemini te neuzen, maar je kunt het gebruiken om naar de parameters in veel opensource-modellen te kijken.) Je kunt dan controleren welke inputs verschillende neuronen laten vuren, en paden stroomopwaarts en stroomafwaarts van een neuron traceren om te zien hoe andere neuronen het beïnvloeden en hoe het op zijn beurt andere neuronen beïnvloedt.
Goodfire vond bijvoorbeeld een neuron in het opensource-model Qwen 3 dat geassocieerd was met het zogenaamde trolleyprobleem. Het activeren van dit neuron veranderde de reacties van het model, waardoor het zijn outputs als expliciete morele dilemma's presenteerde. "Wanneer dit neuron actief is, gebeuren er allerlei rare dingen," zegt Ho. Het aanwijzen van de bron van vreemd gedrag