Das in San Francisco ansässige Startup Goodfire hat ein Tool namens Silico veröffentlicht, das Forschern und Ingenieuren ermöglicht, in ein KI-Modell hineinzuschauen und dessen Parameter – die Einstellungen, die das Verhalten eines Modells bestimmen – während des Trainings anzupassen. Das könnte Modellentwicklern eine feinere Kontrolle über den Bau dieser Technologie geben, als einst für möglich gehalten wurde – vorausgesetzt, sie scheuen sich nicht davor, sich die Hände ein bisschen schmutzig zu machen.
Goodfire behauptet, Silico sei das erste handelsübliche Tool seiner Art, das Entwicklern hilft, alle Phasen des Entwicklungsprozesses zu debuggen, vom Aufbau eines Datensatzes bis zum Training eines Modells. Das Unternehmen sagt, seine Mission sei es, den Bau von KI-Modellen weniger wie Alchemie und mehr wie eine Wissenschaft zu gestalten. Klar, LLMs wie ChatGPT und Gemini können erstaunliche Dinge. Aber niemand weiß genau, wie oder warum sie funktionieren, und das kann es schwierig machen, ihre Fehler zu beheben oder unerwünschte Verhaltensweisen zu blockieren.
„Wir sahen diese wachsende Kluft zwischen dem Verständnis der Modelle und der Breite ihres Einsatzes“, sagt Goodfires CEO Eric Ho im exklusiven Gespräch mit MIT Technology Review vor der Veröffentlichung von Silico. „Ich denke, das vorherrschende Gefühl in jedem großen Grenzbereichslabor ist heute, dass man einfach mehr Skalierung, mehr Rechenleistung, mehr Daten braucht, und dann bekommt man AGI [künstliche allgemeine Intelligenz] und nichts anderes zählt mehr. Und wir sagen: Nein, es gibt einen besseren Weg.“
Goodfire ist eines von wenigen Unternehmen, darunter die Branchenführer Anthropic, OpenAI und Google DeepMind, die eine Technik namens mechanistische Interpretierbarkeit vorantreiben, die darauf abzielt, zu verstehen, was in einem KI-Modell vorgeht, wenn es eine Aufgabe ausführt, indem sie seine Neuronen und die Pfade zwischen ihnen kartiert. (MIT Technology Review hat mechanistische Interpretierbarkeit zu einer seiner 10 bahnbrechenden Technologien des Jahres 2026 gekürt, also wissen Sie, dass es seriös ist.) Goodfire möchte diesen Ansatz nicht nur nutzen, um Modelle zu prüfen – also solche zu untersuchen, die bereits trainiert wurden –, sondern auch, um sie von vornherein zu entwerfen.
„Wir wollen das Trial-and-Error entfernen und das Training von Modellen in Präzisionstechnik verwandeln“, sagt Ho. „Und das bedeutet, die Knöpfe und Regler freizulegen, damit man sie während des Trainingsprozesses tatsächlich nutzen kann.“ Goodfire hat seine Techniken und Tools bereits eingesetzt, um das Verhalten von LLMs zu optimieren – zum Beispiel die Anzahl der Halluzinationen zu reduzieren, die sie produzieren. Mit Silico verpackt das Unternehmen nun viele dieser internen Techniken als Produkt.
Das Tool nutzt Agenten, um einen Großteil der komplexen Arbeit zu automatisieren. „Agenten sind jetzt stark genug, um einen Großteil der Interpretierbarkeitsarbeit zu erledigen, die wir früher mit Menschen gemacht haben“, sagt Ho. „Das war die Lücke, die überbrückt werden musste, bevor dies eine praktikable Plattform war, die Kunden selbst nutzen konnten.“
Leonard Bereska, Forscher an der Universität Amsterdam, der an mechanistischer Interpretierbarkeit gearbeitet hat, hält Silico für ein nützliches Tool. Aber er widerspricht Goodfires höheren Ambitionen. „In Wirklichkeit fügen sie der Alchemie Präzision hinzu“, sagt er. „Es als Ingenieurswesen zu bezeichnen, lässt es prinzipientreuer klingen, als es ist.“
Silico ermöglicht es, in bestimmte Teile eines trainierten Modells hineinzuzoomen, wie einzelne Neuronen oder Neuronengruppen, und Experimente durchzuführen, um zu sehen, was diese Neuronen tun. (Vorausgesetzt, man hat Zugang zu den inneren Abläufen des Modells. Die meisten Leute werden Silico nicht nutzen können, um in ChatGPT oder Gemini herumzustochern, aber man kann damit die Parameter vieler Open-Source-Modelle untersuchen.) Man kann dann überprüfen, welche Eingaben verschiedene Neuronen feuern lassen, und Pfade stromaufwärts und stromabwärts eines Neurons verfolgen, um zu sehen, wie andere Neuronen es beeinflussen und wie es wiederum andere Neuronen beeinflusst.
Zum Beispiel fand Goodfire ein Neuron im Open-Source-Modell Qwen 3, das mit dem sogenannten Trolley-Problem assoziiert war. Die Aktivierung dieses Neurons veränderte die Antworten des Modells und ließ es seine Ausgaben als explizite moralische Dilemmata formulieren. „Wenn dieses Neuron aktiv ist, passieren alle möglichen seltsamen Dinge“, sagt Ho. Die Quelle des seltsamen Verhaltens zu lokalisieren...