스타트업의 새 도구, AI의 뇌를 들여다보고 환각 볼륨을 낮추다

Goodfire의 Silico 도구는 AI 모델 내부를 들여다보고 매개변수를 조정할 수 있게 해주며, 연금술 같은 AI 개발을 공학에 가깝게 만든다고 주장하지만, 일부 전문가는 여전히 연금술에 정밀도를 더한 것에 불과하다고 비판한다.

샌프란시스코에 본사를 둔 스타트업 Goodfire가 Silico라는 도구를 출시했다. 이 도구는 연구자와 엔지니어가 AI 모델 내부를 들여다보고 훈련 중 모델의 행동을 결정하는 매개변수를 조정할 수 있게 해준다. 이는 모델 제작자에게 한때 가능하다고 생각되었던 것보다 더 세밀한 제어권을 제공할 수 있으며, 손을 더럽히는 것을 꺼리지 않는다면 말이다.

Goodfire는 Silico가 데이터 세트 구축부터 모델 훈련까지 개발 과정의 모든 단계를 디버깅할 수 있는 최초의 기성 도구라고 주장한다. 회사는 AI 모델 구축을 연금술보다 과학에 가깝게 만드는 것이 사명이라고 말한다. 물론 ChatGPT나 Gemini 같은 LLM은 놀라운 일을 할 수 있다. 하지만 아무도 그것들이 어떻게 또는 왜 작동하는지 정확히 알지 못하며, 이는 결함을 수정하거나 원치 않는 행동을 차단하기 어렵게 만든다.

“우리는 모델이 이해되는 정도와 배포되는 광범위함 사이에 점점 커지는 격차를 목격했습니다.” Goodfire의 CEO Eric Ho가 Silico 출시에 앞서 MIT Technology Review와의 독점 인터뷰에서 말한다. “모든 주요 프론티어 연구소의 지배적인 생각은 더 많은 규모, 더 많은 컴퓨팅, 더 많은 데이터만 있으면 AGI에 도달하고 다른 것은 중요하지 않다는 것입니다. 우리는 아니라고 말합니다. 더 나은 방법이 있습니다.”

Goodfire는 Anthropic, OpenAI, Google DeepMind 같은 업계 선두주자를 포함한 소수의 회사 중 하나로, 기계적 해석 가능성(mechanistic interpretability)이라는 기술을 개척하고 있다. 이 기술은 AI 모델이 작업을 수행할 때 내부에서 무슨 일이 일어나는지 이해하기 위해 뉴런과 그 사이의 경로를 매핑하는 것을 목표로 한다. (MIT Technology Review는 기계적 해석 가능성을 2026년 10대 혁신 기술 중 하나로 선정했으니, 이게 진짜라는 걸 아실 겁니다.) Goodfire는 이 접근 방식을 사용하여 이미 훈련된 모델을 감사할 뿐만 아니라 처음부터 모델을 설계하는 데 도움을 주고자 한다.

“우리는 시행착오를 없애고 훈련 모델을 정밀 공학으로 바꾸고 싶습니다.”라고 Ho는 말한다. “그리고 그것은 훈련 과정 중에 실제로 사용할 수 있도록 손잡이와 다이얼을 노출하는 것을 의미합니다.” Goodfire는 이미 자체 기술과 도구를 사용하여 LLM의 행동을 조정했다. 예를 들어, 생성하는 환각의 수를 줄였다. 이제 Silico를 통해 회사는 이러한 사내 기술을 패키징하여 제품으로 출시하고 있다.

이 도구는 에이전트를 사용하여 복잡한 작업의 많은 부분을 자동화한다. “에이전트는 이제 우리가 인간을 사용하여 수행하던 해석 가능성 작업의 상당 부분을 수행할 수 있을 만큼 강력해졌습니다.”라고 Ho는 말한다. “이것이 고객이 스스로 사용할 수 있는 실행 가능한 플랫폼이 되기 전에 연결되어야 했던 격차였습니다.”

암스테르담 대학의 연구원이자 기계적 해석 가능성 분야에서 일해 온 Leonard Bereska는 Silico가 유용한 도구처럼 보인다고 생각한다. 그러나 그는 Goodfire의 더 큰 야망에 반박한다. “현실적으로, 그들은 연금술에 정밀도를 더하고 있습니다.”라고 그는 말한다. “그것을 공학이라고 부르는 것은 실제보다 더 원칙적으로 보이게 만듭니다.”

Silico를 사용하면 훈련된 모델의 특정 부분(예: 개별 뉴런 또는 뉴런 그룹)을 확대하고 해당 뉴런이 무엇을 하는지 실험을 실행할 수 있다. (모델의 내부 작동에 접근할 수 있다는 가정 하에. 대부분의 사람들은 Silico를 사용하여 ChatGPT나 Gemini 내부를 들여다볼 수 없지만, 많은 오픈 소스 모델의 매개변수를 살펴보는 데 사용할 수 있다.) 그런 다음 어떤 입력이 다른 뉴런을 활성화하는지 확인하고, 뉴런의 업스트림 및 다운스트림 경로를 추적하여 다른 뉴런이 어떻게 영향을 미치고 영향을 받는지 볼 수 있다.

예를 들어, Goodfire는 오픈 소스 모델 Qwen 3 내에서 소위 트롤리 딜레마와 관련된 하나의 뉴런을 발견했다. 이 뉴런을 활성화하면 모델의 응답이 변경되어 출력을 명시적인 도덕적 딜레마로 구성하게 된다. “이 뉴런이 활성화되면 모든 종류의 이상한 일이 발생합니다.”라고 Ho는 말한다. 이상한 행동의 원인을 정확히 찾아내는 것은...

스타트업의 새 도구, AI의 뇌를 들여다보고 환각 볼륨을 낮추다

받은 편지함에 뉴스를.