सैन फ्रांसिस्को स्थित स्टार्टअप गुडफायर ने सिलिको नामक एक उपकरण जारी किया है जो शोधकर्ताओं और इंजीनियरों को AI मॉडल के अंदर झाँकने और प्रशिक्षण के दौरान उसके पैरामीटर्स - वे सेटिंग्स जो मॉडल के व्यवहार को निर्धारित करती हैं - को समायोजित करने देता है। यह मॉडल निर्माताओं को इस तकनीक के निर्माण पर पहले से कहीं अधिक सूक्ष्म नियंत्रण दे सकता है, बशर्ते उन्हें अपने हाथ थोड़े गंदे करने में कोई आपत्ति न हो।

गुडफायर का दावा है कि सिलिको अपनी तरह का पहला तैयार उपकरण है जो डेवलपर्स को डेटा सेट बनाने से लेकर मॉडल प्रशिक्षण तक, विकास प्रक्रिया के सभी चरणों में डीबग करने में मदद कर सकता है। कंपनी का कहना है कि उसका मिशन AI मॉडल बनाने को कीमिया से कम और विज्ञान के करीब लाना है। बेशक, ChatGPT और Gemini जैसे LLM अद्भुत काम कर सकते हैं। लेकिन कोई नहीं जानता कि वे कैसे या क्यों काम करते हैं, और इससे उनकी खामियों को ठीक करना या अवांछित व्यवहारों को रोकना मुश्किल हो जाता है।

"हमने देखा कि मॉडलों को कितनी अच्छी तरह समझा जाता है और उन्हें कितने व्यापक रूप से तैनात किया जा रहा है, इसके बीच एक बढ़ती हुई खाई है," गुडफायर के CEO एरिक हो ने सिलिको के रिलीज़ से पहले MIT टेक्नोलॉजी रिव्यू को एक विशेष बातचीत में बताया। "मुझे लगता है कि आज हर प्रमुख फ्रंटियर लैब में प्रमुख भावना यह है कि आपको बस अधिक स्केल, अधिक कंप्यूट, अधिक डेटा चाहिए, और फिर आपको AGI मिल जाएगा और बाकी कुछ मायने नहीं रखता। और हम कह रहे हैं कि नहीं, एक बेहतर तरीका है।"

गुडफायर उन कुछ कंपनियों में से एक है, जिनमें उद्योग के नेता एंथ्रोपिक, OpenAI और गूगल डीपमाइंड शामिल हैं, जो मैकेनिस्टिक इंटरप्रिटेबिलिटी नामक तकनीक का बीड़ा उठा रही हैं, जिसका उद्देश्य यह समझना है कि AI मॉडल के अंदर क्या होता है जब वह किसी कार्य को करता है, उसके न्यूरॉन्स और उनके बीच के पथों का मानचित्रण करके। (MIT टेक्नोलॉजी रिव्यू ने मैकेनिस्टिक इंटरप्रिटेबिलिटी को 2026 की 10 ब्रेकथ्रू टेक्नोलॉजीज में से एक चुना है, तो आप जानते हैं कि यह वैध है।) गुडफायर इस दृष्टिकोण का उपयोग न केवल मॉडलों का ऑडिट करने के लिए करना चाहता है - यानी, उन मॉडलों का अध्ययन करना जो पहले से प्रशिक्षित हैं - बल्कि पहली बार में उन्हें डिजाइन करने में मदद करने के लिए भी।

"हम परीक्षण और त्रुटि को हटाना चाहते हैं और प्रशिक्षण मॉडलों को सटीक इंजीनियरिंग में बदलना चाहते हैं," हो कहते हैं। "और इसका मतलब है कि नॉब और डायल को उजागर करना ताकि आप प्रशिक्षण प्रक्रिया के दौरान उनका उपयोग कर सकें।" गुडफायर ने पहले ही अपनी तकनीकों और उपकरणों का उपयोग LLM के व्यवहारों को ट्वीक करने के लिए किया है - उदाहरण के लिए, उनके द्वारा उत्पन्न भ्रमों की संख्या को कम करना। सिलिको के साथ, कंपनी अब अपनी कई इन-हाउस तकनीकों को पैकेज कर रही है और उन्हें एक उत्पाद के रूप में शिप कर रही है।

यह उपकरण जटिल काम को स्वचालित करने के लिए एजेंटों का उपयोग करता है। "एजेंट अब इतने मजबूत हैं कि वे बहुत सारे इंटरप्रिटेबिलिटी काम कर सकते हैं जो हम मनुष्यों का उपयोग करके कर रहे थे," हो कहते हैं। "यह वह अंतर था जिसे पाटने की आवश्यकता थी, इससे पहले कि यह वास्तव में एक व्यवहार्य प्लेटफॉर्म होता जिसका ग्राहक स्वयं उपयोग कर सकें।"

एम्स्टर्डम विश्वविद्यालय के एक शोधकर्ता लियोनार्ड बेरेस्का, जिन्होंने मैकेनिस्टिक इंटरप्रिटेबिलिटी पर काम किया है, सोचते हैं कि सिलिको एक उपयोगी उपकरण लगता है। लेकिन वे गुडफायर की ऊँची महत्वाकांक्षाओं पर पीछे हटते हैं। "वास्तव में, वे कीमिया में सटीकता जोड़ रहे हैं," वे कहते हैं। "इसे इंजीनियरिंग कहना इसे उससे अधिक सैद्धांतिक बनाता है जितना यह है।"

सिलिको आपको प्रशिक्षित मॉडल के विशिष्ट भागों पर ज़ूम करने देता है, जैसे कि व्यक्तिगत न्यूरॉन्स या न्यूरॉन्स के समूह, और यह देखने के लिए प्रयोग चलाता है कि वे न्यूरॉन्स क्या करते हैं। (मान लें कि आपके पास मॉडल के आंतरिक कामकाज तक पहुंच है। अधिकांश लोग ChatGPT या Gemini के अंदर झाँकने के लिए सिलिको का उपयोग नहीं कर पाएंगे, लेकिन आप इसका उपयोग कई ओपन-सोर्स मॉडलों के अंदर के पैरामीटर्स को देखने के लिए कर सकते हैं।) फिर आप जांच सकते हैं कि कौन से इनपुट विभिन्न न्यूरॉन्स को सक्रिय करते हैं, और एक न्यूरॉन के अपस्ट्रीम और डाउनस्ट्रीम पथों का पता लगा सकते हैं ताकि देख सकें कि अन्य न्यूरॉन्स इसे कैसे प्रभावित करते हैं और यह बदले में अन्य न्यूरॉन्स को कैसे प्रभावित करता है।

उदाहरण के लिए, गुडफायर ने ओपन-सोर्स मॉडल Qwen 3 के अंदर एक न्यूरॉन पाया जो तथाकथित ट्रॉली समस्या से जुड़ा था। इस न्यूरॉन को सक्रिय करने से मॉडल की प्रतिक्रियाएँ बदल गईं, जिससे यह अपने आउटपुट को स्पष्ट नैतिक दुविधाओं के रूप में तैयार करने लगा। "जब यह न्यूरॉन सक्रिय होता है, तो सभी प्रकार की अजीब चीजें होती हैं," हो कहते हैं। अजीब व्यवहार के स्रोत का पता लगाना