गुरुवार को, एंथ्रोपिक ने अपने सबसे उन्नत सार्वजनिक रूप से उपलब्ध मॉडल का नवीनतम संस्करण, ओपस 4.8 जारी किया। यह मॉडल हर जगह उपलब्ध है, पिछले ओपस रिलीज़ के समान मानक मूल्य निर्धारण के साथ - क्योंकि "नवाचार" का मतलब थोड़ा कम निराशाजनक उत्पाद के लिए समान राशि वसूलना है।

नया मॉडल ओपस 4.7 के रिलीज़ होने के ठीक 41 दिन बाद आया है, जो एंथ्रोपिक के लिए सामान्य से कहीं अधिक तेज़ अपग्रेड चक्र है। (सबसे हालिया सॉनेट और हाइकू मॉडल क्रमशः तीन और सात महीने पुराने हैं।) तेज़ बदलाव का कारण ओपस 4.7 की ठंडी प्रतिक्रिया हो सकती है, जिसे कुछ उपयोगकर्ताओं ने निराशाजनक पाया - जो तकनीकी भाषा में "सबने आँखें घुमाईं" कहलाता है।

इस अंतराल में OpenAI के Codex और Google के Gemini Flash मॉडल के महत्वपूर्ण नए रिलीज़ भी हुए हैं, जिससे एंथ्रोपिक पर गति बनाए रखने का दबाव बढ़ गया है। कोड प्रवाहित करने के लिए थोड़ी भाई-बहन प्रतिद्वंद्विता जैसा कुछ नहीं।

ओपस 4.8 अपेक्षित सर्वश्रेष्ठ-इन-क्लास बेंचमार्क परिणामों के साथ आता है, लेकिन इस बात पर विशेष ध्यान दिया गया है कि मॉडल खराब या अनिश्चित डेटा का प्रबंधन कैसे करता है। लॉन्च पोस्ट में, एंथ्रोपिक के शुरुआती परीक्षकों ने पाया कि नया मॉडल "अपने काम के बारे में अनिश्चितताओं को उजागर करने की अधिक संभावना रखता है और असमर्थित दावे करने की कम संभावना रखता है।" दूसरे शब्दों में, यह आखिरकार आत्मविश्वास से भ्रमित होने के बजाय "मुझे नहीं पता" कहना सीख रहा है।

इस बिंदु को प्रतिध्वनित करते हुए, Bridgewater Associates के एक प्रशंसापत्र ने कहा कि अपग्रेड में सबसे बड़ा अंतर था "ओपस 4.8 की विश्लेषण के इनपुट और आउटपुट के साथ समस्याओं को सक्रिय रूप से उजागर करने की प्रवृत्ति, जो अन्य मॉडल नियमित रूप से चूक जाते थे और उपयोगकर्ताओं को पकड़ने के लिए छोड़ देते थे।" तो यह मूल रूप से वह कार्यालय सहकर्मी है जो बॉस के देखने से पहले स्प्रेडशीट त्रुटियों को इंगित करता है।

नए मॉडल के साथ, एंथ्रोपिक ने डायनामिक वर्कफ़्लोज़ नामक एक सुविधा लॉन्च की, जो शोध पूर्वावलोकन में उपलब्ध होगी। यह सिस्टम ओपस जैसे बड़े मॉडलों को सैकड़ों समानांतर उप-एजेंटों में जटिल कार्यों को प्रबंधित करने में मदद करने के लिए डिज़ाइन किया गया है। क्योंकि एक AI एक हज़ार कार्यों का प्रबंधन कर रहा था, यह पर्याप्त महत्वाकांक्षी नहीं था।

"क्लॉड कोड ओपस 4.8 के साथ मिलकर अब कोडबेस-स्केल माइग्रेशन को सैकड़ों हज़ारों लाइनों के कोड में किकऑफ़ से मर्ज तक ले जा सकता है, मौजूदा टेस्ट सूट को अपने बार के रूप में," पोस्ट बताती है। यह एक ऐसे मॉडल के लिए बहुत सारा कोड है जिसने अभी-अभी यह स्वीकार करना सीखा है कि वह भ्रमित है।

एंथ्रोपिक अभी भी अपने सबसे उन्नत मिथोस मॉडल को रोके हुए है, पिछले महीने एक अस्थायी पूर्वावलोकन के बाद साइबर सुरक्षा चिंताएँ उठाई गई थीं। हालाँकि, कंपनी ने आज के ओपस रिलीज़ में संकेत दिया कि मिथोस पूर्वावलोकन अवधि जल्द ही समाप्त हो सकती है, एक बार आवश्यक सुरक्षा उपाय पूरे हो जाने के बाद।

"हम इन सुरक्षा उपायों को विकसित करने में तेज़ी से प्रगति कर रहे हैं और आने वाले हफ़्तों में मिथोस-श्रेणी के मॉडल अपने सभी ग्राहकों तक लाने में सक्षम होने की उम्मीद करते हैं," कंपनी ने लिखा। अनुवाद: "हमने लगभग यह पता लगा लिया है कि इसे गलती से परमाणु मिसाइल लॉन्च करने से कैसे रोका जाए।"