San Francisco merkezli startup Goodfire, araştırmacıların ve mühendislerin bir yapay zeka modelinin içine bakmasına ve eğitim sırasında parametrelerini (modelin davranışını belirleyen ayarlar) ayarlamasına olanak tanıyan Silico adlı bir araç yayınladı. Bu, model üreticilerine bu teknolojinin nasıl inşa edildiği konusunda bir zamanlar mümkün olduğu düşünülenden daha ince ayarlı bir kontrol sağlayabilir, tabii ellerini biraz kirletmeyi umursamıyorlarsa.
Goodfire, Silico'nun, bir veri seti oluşturmaktan bir modeli eğitmeye kadar geliştirme sürecinin tüm aşamalarında hata ayıklamaya yardımcı olabilecek türünün ilk hazır araç olduğunu iddia ediyor. Şirket, misyonunun yapay zeka modelleri oluşturmayı daha az simyaya ve daha çok bilime benzetmek olduğunu söylüyor. Elbette ChatGPT ve Gemini gibi LLM'ler harika şeyler yapabilir. Ancak kimse tam olarak nasıl veya neden çalıştıklarını bilmiyor ve bu da kusurlarını düzeltmeyi veya istenmeyen davranışları engellemeyi zorlaştırabiliyor.
"Modellerin ne kadar iyi anlaşıldığı ile ne kadar yaygın bir şekilde dağıtıldıkları arasında büyüyen bir boşluk gördük," diyor Goodfire'ın CEO'su Eric Ho, Silico'nun yayınlanmasından önce MIT Technology Review ile yaptığı özel bir sohbette. "Bence bugün her büyük öncü laboratuvardaki hakim duygu, sadece daha fazla ölçek, daha fazla hesaplama, daha fazla veriye ihtiyacınız olduğu ve sonra AGI'ye [yapay genel zeka] ulaştığınız ve başka hiçbir şeyin önemli olmadığı. Ve biz hayır, daha iyi bir yol var diyoruz."
Goodfire, Anthropic, OpenAI ve Google DeepMind gibi endüstri liderlerinin de dahil olduğu, mekanik yorumlanabilirlik olarak bilinen bir tekniğe öncülük eden bir avuç şirketten biri. Bu teknik, bir yapay zeka modelinin bir görevi yerine getirirken içinde neler olduğunu anlamak için nöronlarını ve aralarındaki yolları haritalamayı amaçlıyor. (MIT Technology Review, mekanik yorumlanabilirliği 2026'nın 10 Çığır Açan Teknolojisinden biri olarak seçti, yani meşru olduğunu biliyorsunuz.) Goodfire bu yaklaşımı yalnızca modelleri denetlemek için değil (yani, halihazırda eğitilmiş olanları incelemek), aynı zamanda onları en başta tasarlamaya yardımcı olmak için kullanmak istiyor.
"Deneme yanılmayı ortadan kaldırmak ve eğitim modellerini hassas mühendisliğe dönüştürmek istiyoruz," diyor Ho. "Ve bu, düğmeleri ve kadranları açığa çıkarmak anlamına geliyor, böylece onları eğitim sürecinde gerçekten kullanabilirsiniz." Goodfire, tekniklerini ve araçlarını halihazırda LLM'lerin davranışlarını ince ayar yapmak için kullandı; örneğin, ürettikleri halüsinasyon sayısını azaltmak gibi. Şimdi şirket, bu dahili tekniklerin çoğunu Silico ile paketleyip bir ürün olarak piyasaya sürüyor.
Araç, karmaşık işlerin çoğunu otomatikleştirmek için ajanlar kullanıyor. "Ajanlar artık insanları kullanarak yaptığımız yorumlanabilirlik işinin çoğunu yapacak kadar güçlü," diyor Ho. "Müşterilerin kendi başlarına kullanabileceği uygun bir platform haline gelmeden önce köprülenmesi gereken boşluk buydu."
Amsterdam Üniversitesi'nde mekanik yorumlanabilirlik üzerinde çalışan bir araştırmacı olan Leonard Bereska, Silico'nun kullanışlı bir araç gibi göründüğünü düşünüyor. Ancak Goodfire'ın daha yüksek hedeflerine karşı çıkıyor. "Gerçekte, simyaya hassasiyet ekliyorlar," diyor. "Buna mühendislik demek, olduğundan daha ilkeli gösteriyor."
Silico, eğitilmiş bir modelin belirli bölümlerine, örneğin tek tek nöronlara veya nöron gruplarına yakınlaştırma yapmanıza ve bu nöronların ne yaptığını görmek için deneyler yapmanıza olanak tanır. (Modelin iç işleyişine erişiminiz olduğunu varsayarsak. Çoğu kişi Silico'yu ChatGPT veya Gemini'nin içini kurcalamak için kullanamayacak, ancak birçok açık kaynak modelin içindeki parametrelere bakmak için kullanabilirsiniz.) Ardından, hangi girdilerin farklı nöronları ateşlediğini kontrol edebilir ve bir nöronun yukarı ve aşağı akış yollarını izleyerek diğer nöronların onu nasıl etkilediğini ve onun da sırayla diğer nöronları nasıl etkilediğini görebilirsiniz.
Örneğin Goodfire, açık kaynak model Qwen 3'ün içinde sözde tramvay problemiyle ilişkili bir nöron buldu. Bu nöronu etkinleştirmek, modelin yanıtlarını değiştirerek çıktılarını açık ahlaki ikilemler olarak çerçevelemesine neden oldu. "Bu nöron aktif olduğunda, her türlü tuhaf şey oluyor," diyor Ho. Garip davranışın kaynağını belirlemek