يوم الخميس، أصدرت Anthropic نموذج Opus 4.8، أحدث إصدار من نموذجها الأكثر تقدمًا المتاح للجمهور. النموذج متاح في كل مكان، بنفس التسعير القياسي للإصدار السابق من Opus - لأنه لا شيء يقول 'ابتكار' مثل فرض نفس السعر مقابل منتج أقل خيبة أمل قليلاً.
يأتي النموذج الجديد بعد 41 يومًا فقط من إصدار Opus 4.7، وهي دورة ترقية أسرع بكثير من المعتاد لـ Anthropic. (أحدث نماذج Sonnet و Haiku عمرها ثلاثة وسبعة أشهر على التوالي.) قد يكون هذا التحول السريع مرتبطًا بالاستقبال البارد لـ Opus 4.7، الذي وجده بعض المستخدمين مخيبًا للآمال - وهو ما يعني بلغة التكنولوجيا 'الجميع لوى أعينهم.'
شهدت تلك الفترة أيضًا إصدارات جديدة مهمة لـ Codex من OpenAI و Gemini Flash من Google، مما زاد الضغط على Anthropic لمواكبة الوتيرة. لا شيء مثل التنافس بين الأشقاء لتحفيز تدفق الكود.
يأتي Opus 4.8 مع نتائج معايير قياسية متوقعة من الفئة الأولى، ولكن هناك أيضًا اهتمام خاص بكيفية إدارة النموذج للبيانات السيئة أو غير المؤكدة. في منشور الإطلاق، وجد المختبرون الأوائل لـ Anthropic أن النموذج الجديد 'أكثر عرضة للإشارة إلى حالات عدم اليقين بشأن عمله وأقل عرضة لتقديم ادعاءات غير مدعومة.' بعبارة أخرى، إنه يتعلم أخيرًا أن يقول 'لا أعرف' بدلاً من التخيل بثقة.
مرددًا هذه النقطة، قال شهادة من Bridgewater Associates إن الفرق الأكبر في الترقية كان 'ميل Opus 4.8 إلى الإشارة بشكل استباقي إلى مشكلات في المدخلات والمخرجات للتحليل، وهو ما كانت النماذج الأخرى تفتقده بشكل روتيني وتتركه للمستخدمين ليكتشفوه.' لذا فهو ببساطة زميل المكتب الذي يشير إلى أخطاء جدول البيانات قبل أن يراها المدير.
إلى جانب النموذج الجديد، أطلقت Anthropic ميزة تسمى 'سير العمل الديناميكي'، والتي ستكون متاحة في المعاينة البحثية. النظام مصمم لمساعدة النماذج الأكبر مثل Opus على إدارة المهام المعقدة عبر مئات الوكلاء الفرعيين المتوازيين. لأن إدارة ذكاء اصطناعي واحد لألف مهمة لم تكن طموحة بما فيه الكفاية.
يشرح المنشور: 'يمكن لـ Claude Code إلى جانب Opus 4.8 الآن تنفيذ ترحيلات على مستوى قاعدة البيانات عبر مئات الآلاف من أسطر التعليمات البرمجية من البداية إلى الدمج، مع مجموعة الاختبارات الحالية كمعيار له.' هذا كثير من الكود لنموذج تعلم للتو أن يعترف بأنه مرتبك.
لا تزال Anthropic تحجب نموذجها الأكثر تقدمًا Mythos بعد معاينة أولية الشهر الماضي أثارت مخاوف تتعلق بالأمن السيبراني. ومع ذلك، ألمحت الشركة في إصدار Opus اليوم إلى أن فترة معاينة Mythos قد تنتهي قريبًا، بمجرد اكتمال الضمانات اللازمة.
كتبت الشركة: 'نحن نحرز تقدمًا سريعًا في تطوير هذه الضمانات ونتوقع أن نكون قادرين على تقديم نماذج من فئة Mythos لجميع عملائنا في الأسابيع القادمة.' الترجمة: 'لقد كدنا نعرف كيف نمنعه من إطلاق أسلحة نووية عن طريق الخطأ.'