Noul instrument al startup-ului vă permite să vă uitați în creierul AI și să reduceți volumul halucinațiilor

Instrumentul Silico al startup-ului Goodfire vă permite să depanați modele AI ca pe un cod prost, transformând alchimia neuronală în ceva care se apropie de inginerie - sau cel puțin să îi facă o curățenie bună.

Startup-ul Goodfire, cu sediul în San Francisco, a lansat un instrument numit Silico care permite cercetătorilor și inginerilor să se uite în interiorul unui model AI și să îi ajusteze parametrii - setările care determină comportamentul modelului - în timpul antrenării. Acest lucru ar putea oferi producătorilor de modele un control mai fin asupra modului în care este construită această tehnologie decât se credea posibil, presupunând că nu le deranjează să se murdărească puțin pe mâini.

Goodfire susține că Silico este primul instrument de acest fel disponibil pe piață care poate ajuta dezvoltatorii să depaneze toate etapele procesului de dezvoltare, de la construirea unui set de date până la antrenarea unui model. Compania spune că misiunea sa este să facă construirea modelelor AI mai puțin o alchimie și mai mult o știință. Sigur, LLM-uri precum ChatGPT și Gemini pot face lucruri uimitoare. Dar nimeni nu știe exact cum sau de ce funcționează, iar asta poate face dificilă remedierea defectelor sau blocarea comportamentelor nedorite.

„Am văzut acest decalaj tot mai mare între cât de bine erau înțelese modelele și cât de larg erau implementate”, spune Eric Ho, CEO-ul Goodfire, într-un interviu exclusiv cu MIT Technology Review înainte de lansarea Silico. „Cred că sentimentul dominant în fiecare laborator important de frontieră astăzi este că ai nevoie doar de mai multă scară, mai multă putere de calcul, mai multe date, și apoi obții AGI [inteligență generală artificială] și nimic altceva nu mai contează. Iar noi spunem nu, există o cale mai bună.”

Goodfire este una dintre puținele companii, inclusiv liderii din industrie Anthropic, OpenAI și Google DeepMind, care pionierizează o tehnică cunoscută sub numele de interpretabilitate mecanicistă, care își propune să înțeleagă ce se întâmplă în interiorul unui model AI atunci când execută o sarcină, prin cartografierea neuronilor și a căilor dintre ei. (MIT Technology Review a ales interpretabilitatea mecanicistă ca una dintre cele 10 tehnologii de descoperire ale anului 2026, deci știți că este legitim.) Goodfire vrea să folosească această abordare nu doar pentru a audita modelele - adică a studia pe cele deja antrenate - ci și pentru a ajuta la proiectarea lor de la bun început.

„Vrem să eliminăm încercările și erorile și să transformăm antrenarea modelelor în inginerie de precizie”, spune Ho. „Și asta înseamnă expunerea butoanelor și cadranelor, astfel încât să le poți folosi efectiv în timpul procesului de antrenare.” Goodfire a folosit deja tehnicile și instrumentele sale pentru a ajusta comportamentele LLM-urilor - de exemplu, reducând numărul de halucinații pe care le produc. Cu Silico, compania împachetează acum multe dintre aceste tehnici interne și le livrează ca produs.

Instrumentul folosește agenți pentru a automatiza o mare parte din munca complexă. „Agenții sunt acum suficient de puternici pentru a face o mare parte din munca de interpretabilitate pe care o făceam cu oameni”, spune Ho. „Acesta a fost cam decalajul care trebuia acoperit înainte ca acesta să fie de fapt o platformă viabilă pe care clienții să o poată folosi singuri.”

Leonard Bereska, cercetător la Universitatea din Amsterdam care a lucrat la interpretabilitatea mecanicistă, consideră că Silico pare un instrument util. Dar el respinge aspirațiile mai înalte ale Goodfire. „În realitate, ei adaugă precizie alchimiei”, spune el. „A o numi inginerie o face să sune mai principială decât este.”

Silico vă permite să măriți părți specifice ale unui model antrenat, cum ar fi neuroni individuali sau grupuri de neuroni, și să rulați experimente pentru a vedea ce fac acei neuroni. (Presupunând că aveți acces la funcționarea internă a modelului. Majoritatea oamenilor nu vor putea folosi Silico pentru a se uita în interiorul ChatGPT sau Gemini, dar îl puteți folosi pentru a examina parametrii din multe modele open-source.) Puteți apoi verifica ce intrări fac să se activeze diferiți neuroni și să urmăriți căile în amonte și în aval ale unui neuron pentru a vedea cum alți neuroni îl afectează și cum afectează el la rândul său alți neuroni.

De exemplu, Goodfire a găsit un neuron în interiorul modelului open-source Qwen 3 care era asociat cu așa-numita problemă a căruciorului. Activarea acestui neuron a schimbat răspunsurile modelului, făcându-l să își încadreze ieșirile ca dileme morale explicite. „Când acest neuron este activ, se întâmplă tot felul de lucruri ciudate”, spune Ho. Identificarea sursei comportamentelor ciudate

Noul instrument al startup-ului vă permite să vă uitați în creierul AI și să reduceți volumul halucinațiilor

Știri în inbox-ul tău.