Nowe narzędzie startupu pozwala zajrzeć do środka mózgu AI i ściszyć jego halucynacje

Narzędzie Silico od Goodfire pozwala debugować modele AI jak zły kod, zamieniając alchemię neuronową w coś zbliżonego do inżynierii – a przynajmniej dając jej porządne szorowanie.

Startup Goodfire z San Francisco wypuścił narzędzie o nazwie Silico, które pozwala badaczom i inżynierom zajrzeć do wnętrza modelu AI i dostosować jego parametry – ustawienia determinujące zachowanie modelu – podczas treningu. Może to dać twórcom modeli bardziej precyzyjną kontrolę nad tym, jak budowana jest ta technologia, niż wcześniej sądzono, pod warunkiem że nie brzydzą się trochę ubrudzić rąk.

Goodfire twierdzi, że Silico jest pierwszym gotowym narzędziem tego rodzaju, które pomaga programistom debugować wszystkie etapy procesu tworzenia, od budowania zbioru danych po trenowanie modelu. Firma mówi, że jej misją jest sprawienie, by budowanie modeli AI było mniej jak alchemia, a bardziej jak nauka. Jasne, LLM-y takie jak ChatGPT i Gemini potrafią robić niesamowite rzeczy. Ale nikt nie wie dokładnie, jak ani dlaczego działają, a to utrudnia naprawianie ich wad lub blokowanie niepożądanych zachowań.

„Widzieliśmy tę pogłębiającą się przepaść między tym, jak dobrze modele są rozumiane, a jak szeroko są wdrażane” – mówi Eric Ho, CEO Goodfire, w ekskluzywnej rozmowie z MIT Technology Review przed premierą Silico. „Myślę, że dominującym odczuciem w każdym dużym laboratorium granicznym jest dziś to, że potrzebujesz tylko większej skali, więcej mocy obliczeniowej, więcej danych, a potem dostajesz AGI [sztuczną inteligencję ogólną] i nic innego się nie liczy. A my mówimy: nie, jest lepszy sposób”.

Goodfire jest jednym z niewielu firm, w tym liderów branży Anthropic, OpenAI i Google DeepMind, które pioniersko stosują technikę zwaną interpretowalnością mechaniczną, mającą na celu zrozumienie, co dzieje się wewnątrz modelu AI, gdy wykonuje zadanie, poprzez mapowanie jego neuronów i ścieżek między nimi. (MIT Technology Review uznał interpretowalność mechaniczną za jedną z 10 przełomowych technologii 2026 roku, więc wiecie, że to poważna sprawa.) Goodfire chce wykorzystać to podejście nie tylko do audytu modeli – czyli badania już wytrenowanych – ale także do pomocy w ich projektowaniu od podstaw.

„Chcemy wyeliminować metodę prób i błędów i zamienić trenowanie modeli w precyzyjną inżynierię” – mówi Ho. „A to oznacza odsłonięcie pokręteł i przełączników, aby można było ich faktycznie używać podczas procesu treningu”. Goodfire już wykorzystał swoje techniki i narzędzia do modyfikowania zachowań LLM-ów – na przykład zmniejszenia liczby generowanych przez nie halucynacji. Dzięki Silico firma pakuje teraz wiele z tych wewnętrznych technik i wysyła je jako produkt.

Narzędzie wykorzystuje agentów do automatyzacji dużej części złożonej pracy. „Agenci są teraz wystarczająco silni, aby wykonać wiele prac interpretacyjnych, które wcześniej wykonywali ludzie” – mówi Ho. „To była luka, którą trzeba było wypełnić, zanim to mogło stać się realną platformą, z której klienci mogliby sami korzystać”.

Leonard Bereska, badacz z Uniwersytetu w Amsterdamie, który pracował nad interpretowalnością mechaniczną, uważa, że Silico wygląda na przydatne narzędzie. Ale sprzeciwia się wyższym aspiracjom Goodfire. „W rzeczywistości dodają precyzji do alchemii” – mówi. „Nazywanie tego inżynierią sprawia, że brzmi to bardziej zasadnie, niż jest”.

Silico pozwala przybliżyć konkretne części wytrenowanego modelu, takie jak pojedyncze neurony lub grupy neuronów, i przeprowadzać eksperymenty, aby zobaczyć, co te neurony robią. (Zakładając, że masz dostęp do wewnętrznych mechanizmów modelu. Większość ludzi nie będzie mogła użyć Silico do grzebania w ChatGPT lub Gemini, ale można go użyć do spojrzenia na parametry wielu modeli open-source.) Możesz następnie sprawdzić, jakie dane wejściowe aktywują różne neurony i prześledzić ścieżki w górę i w dół od neuronu, aby zobaczyć, jak inne neurony na niego wpływają i jak on wpływa na inne neurony.

Na przykład Goodfire znalazł neuron w modelu open-source Qwen 3, który był powiązany z tak zwanym problemem wagonika. Aktywacja tego neuronu zmieniała odpowiedzi modelu, sprawiając, że formułował on swoje wyniki jako jawne dylematy moralne. „Gdy ten neuron jest aktywny, dzieją się różne dziwne rzeczy” – mówi Ho. Zlokalizowanie źródła dziwnego zachowania...

Nowe narzędzie startupu pozwala zajrzeć do środka mózgu AI i ściszyć jego halucynacje

Wiadomości w Twojej skrzynce.