Новый инструмент стартапа позволяет заглянуть в мозг ИИ и убавить громкость его галлюцинаций

Стартап Goodfire выпустил инструмент Silico, позволяющий заглянуть внутрь ИИ и настраивать его параметры, превращая алхимию в инженерию — или хотя бы в хорошую чистку.

Стартап Goodfire из Сан-Франциско выпустил инструмент под названием Silico, который позволяет исследователям и инженерам заглянуть внутрь модели ИИ и настроить её параметры — те самые настройки, которые определяют поведение модели — во время обучения. Это может дать разработчикам моделей более тонкий контроль над тем, как создаётся эта технология, чем считалось возможным ранее, при условии, что они не боятся испачкать руки.

Goodfire утверждает, что Silico — первый готовый инструмент такого рода, который помогает разработчикам отлаживать все этапы процесса разработки: от создания набора данных до обучения модели. Компания заявляет, что её миссия — превратить создание моделей ИИ из алхимии в науку. Конечно, LLM вроде ChatGPT и Gemini могут творить чудеса. Но никто точно не знает, как и почему они работают, и это затрудняет исправление их недостатков или блокировку нежелательного поведения.

«Мы видели, как растёт разрыв между тем, насколько хорошо модели понимаются, и тем, насколько широко они развёртываются», — говорит генеральный директор Goodfire Эрик Хо в эксклюзивном интервью MIT Technology Review перед выходом Silico. «Я думаю, что доминирующее настроение в каждой крупной передовой лаборатории сегодня — что нужно просто больше масштаба, больше вычислений, больше данных, и тогда вы получите AGI [общий искусственный интеллект], и всё остальное не имеет значения. А мы говорим: нет, есть лучший способ».

Goodfire — одна из немногих компаний, включая лидеров отрасли Anthropic, OpenAI и Google DeepMind, которая разрабатывает технику, известную как механистическая интерпретируемость. Она направлена на понимание того, что происходит внутри модели ИИ, когда она выполняет задачу, путём картирования её нейронов и путей между ними. (MIT Technology Review назвал механистическую интерпретируемость одной из 10 прорывных технологий 2026 года, так что вы знаете, что это серьёзно.) Goodfire хочет использовать этот подход не только для аудита моделей — то есть изучения уже обученных, — но и для помощи в их проектировании с самого начала.

«Мы хотим убрать метод проб и ошибок и превратить обучение моделей в точное инженерное дело», — говорит Хо. «А это значит открыть ручки и циферблаты, чтобы вы могли использовать их в процессе обучения». Goodfire уже использовал свои техники и инструменты для настройки поведения LLM — например, для уменьшения количества галлюцинаций, которые они выдают. Теперь с Silico компания упаковывает многие из этих внутренних техник и выпускает их как продукт.

Инструмент использует агентов для автоматизации большей части сложной работы. «Агенты теперь достаточно сильны, чтобы выполнять большую часть работы по интерпретации, которую мы делали с помощью людей», — говорит Хо. «Это был своего рода разрыв, который нужно было преодолеть, прежде чем это стало жизнеспособной платформой, которую клиенты могли бы использовать сами».

Леонард Береска, исследователь из Амстердамского университета, работавший над механистической интерпретируемостью, считает, что Silico выглядит полезным инструментом. Но он возражает против более высоких амбиций Goodfire. «На самом деле они добавляют точность к алхимии», — говорит он. «Называть это инженерией звучит более принципиально, чем есть на самом деле».

Silico позволяет вам увеличивать конкретные части обученной модели, такие как отдельные нейроны или группы нейронов, и проводить эксперименты, чтобы увидеть, что эти нейроны делают. (При условии, что у вас есть доступ к внутреннему устройству модели. Большинство людей не смогут использовать Silico, чтобы копаться внутри ChatGPT или Gemini, но вы можете использовать его для просмотра параметров внутри многих моделей с открытым исходным кодом.) Затем вы можете проверить, какие входные данные заставляют разные нейроны срабатывать, и проследить пути вверх и вниз по течению от нейрона, чтобы увидеть, как другие нейроны влияют на него и как он влияет на другие нейроны в свою очередь.

Например, Goodfire обнаружил один нейрон внутри модели с открытым исходным кодом Qwen 3, который был связан с так называемой проблемой вагонетки. Активация этого нейрона изменила ответы модели, заставив её формулировать свои выходные данные как явные моральные дилеммы. «Когда этот нейрон активен, происходят всякие странные вещи», — говорит Хо. Выявление источника странного поведения

Новый инструмент стартапа позволяет заглянуть в мозг ИИ и убавить громкость его галлюцинаций

Новости в вашей почте.