Startups nya verktyg låter dig kika in i AI-hjärnan och skruva ned hallucinationsvolymen

Goodfires Silico-verktyg låter dig felsöka AI-modeller som dålig kod och förvandlar neural alkemi till något som närmar sig ingenjörskonst – eller åtminstone ger det en ordentlig skrubb.

Den San Francisco-baserade startupen Goodfire har släppt ett verktyg som heter Silico som låter forskare och ingenjörer kika in i en AI-modell och justera dess parametrar – inställningarna som bestämmer en modells beteende – under träning. Detta kan ge modelltillverkare mer finkornig kontroll över hur denna teknik byggs än vad som tidigare ansågs möjligt, förutsatt att de inte har något emot att bli lite smutsiga om händerna.

Goodfire hävdar att Silico är det första färdiga verktyget i sitt slag som kan hjälpa utvecklare att felsöka alla stadier av utvecklingsprocessen, från att bygga en datamängd till att träna en modell. Företaget säger att dess uppdrag är att göra byggandet av AI-modeller mindre som alkemi och mer som en vetenskap. Visst, LLM:er som ChatGPT och Gemini kan göra fantastiska saker. Men ingen vet exakt hur eller varför de fungerar, och det kan göra det svårt att åtgärda deras brister eller blockera oönskade beteenden.

”Vi såg detta växande gap mellan hur väl modeller förstods och hur brett de användes”, säger Goodfires vd Eric Ho till MIT Technology Review i en exklusiv chatt inför lanseringen av Silico. ”Jag tror att den dominerande känslan i vartenda stort frontallabb idag är att du bara behöver mer skala, mer beräkningskraft, mer data, och sedan får du AGI [artificiell allmän intelligens] och inget annat spelar någon roll. Och vi säger nej, det finns ett bättre sätt.”

Goodfire är ett av en handfull företag, inklusive industriledare som Anthropic, OpenAI och Google DeepMind, som banar väg för en teknik som kallas mekanistisk tolkningsbarhet, som syftar till att förstå vad som händer inuti en AI-modell när den utför en uppgift genom att kartlägga dess neuroner och vägarna mellan dem. (MIT Technology Review utsåg mekanistisk tolkningsbarhet till en av sina 10 banbrytande teknologier 2026, så du vet att det är seriöst.) Goodfire vill använda detta tillvägagångssätt inte bara för att granska modeller – det vill säga studera redan tränade modeller – utan för att hjälpa till att designa dem från början.

”Vi vill eliminera trial and error och göra modellträning till precisionsingenjörskonst”, säger Ho. ”Och det innebär att exponera rattarna och reglagen så att du faktiskt kan använda dem under träningsprocessen.” Goodfire har redan använt sina tekniker och verktyg för att justera beteenden hos LLM:er – till exempel minska antalet hallucinationer de producerar. Med Silico paketerar företaget nu många av dessa interna tekniker och skickar dem som en produkt.

Verktyget använder agenter för att automatisera mycket av det komplexa arbetet. ”Agenter är nu tillräckligt starka för att göra mycket av tolkningsarbetet som vi tidigare gjorde med människor”, säger Ho. ”Det var typ gapet som behövde överbryggas innan detta faktiskt var en livskraftig plattform som kunder själva kunde använda.”

Leonard Bereska, en forskare vid Universitetet i Amsterdam som har arbetat med mekanistisk tolkningsbarhet, tycker att Silico ser ut som ett användbart verktyg. Men han invänder mot Goodfires högre ambitioner. ”I verkligheten lägger de till precision i alkemin”, säger han. ”Att kalla det ingenjörskonst får det att låta mer principfast än det är.”

Silico låter dig zooma in på specifika delar av en tränad modell, såsom enskilda neuroner eller grupper av neuroner, och köra experiment för att se vad dessa neuroner gör. (Förutsatt att du har tillgång till modellens inre funktioner. De flesta kommer inte att kunna använda Silico för att rota runt i ChatGPT eller Gemini, men du kan använda det för att titta på parametrarna i många öppen källkodsmodeller.) Du kan sedan kontrollera vilka indata som får olika neuroner att aktiveras, och spåra vägar uppströms och nedströms från en neuron för att se hur andra neuroner påverkar den och hur den i sin tur påverkar andra neuroner.

Till exempel hittade Goodfire en neuron inuti öppen källkodsmodellen Qwen 3 som var associerad med det så kallade spårvagnsproblemet. Att aktivera denna neuron ändrade modellens svar, vilket fick den att formulera sina utdata som explicita moraliska dilemman. ”När denna neuron är aktiv händer alla möjliga konstiga saker”, säger Ho. Att peka ut källan till udda beteenden

Startups nya verktyg låter dig kika in i AI-hjärnan och skruva ned hallucinationsvolymen

Nyheter i din inkorg.