Perşembe günü Anthropic, en gelişmiş halka açık modelinin en yeni versiyonu olan Opus 4.8'i yayınladı. Model her yerde mevcut ve standart fiyatlandırması önceki Opus sürümüyle aynı seviyede - çünkü "yenilik" demek, biraz daha az hayal kırıklığı yaratan bir ürün için aynı fiyatı talep etmek demektir.
Yeni model, Opus 4.7'nin yayınlanmasından sadece 41 gün sonra geliyor; bu, Anthropic için normalden çok daha hızlı bir yükseltme döngüsü. (En yeni Sonnet ve Haiku modelleri sırasıyla üç ve yedi aylık.) Hızlı geri dönüşün, bazı kullanıcıların hayal kırıklığına uğradığı Opus 4.7'ye yönelik soğuk karşılamayla ilgisi olabilir - ki bu teknoloji dilinde "herkesin gözlerini devirdiği" anlamına gelir.
Bu aralıkta ayrıca OpenAI'in Codex ve Google'ın Gemini Flash modeli için önemli yeni sürümler görüldü ve Anthropic'in tempoyu koruma baskısı arttı. Kodu akıtmak için biraz kardeş rekabetinden daha iyi ne olabilir?
Opus 4.8, beklenen en iyi sınıf kıyaslama sonuçlarıyla geliyor, ancak modelin kötü veya belirsiz verileri nasıl yönettiğine de özellikle dikkat ediliyor. Lansman yazısında, Anthropic'in ilk test kullanıcıları yeni modelin "çalışmasıyla ilgili belirsizlikleri işaretleme olasılığının daha yüksek olduğunu ve desteklenmeyen iddialarda bulunma olasılığının daha düşük olduğunu" buldu. Başka bir deyişle, nihayet kendinden emin bir şekilde halüsinasyon görmek yerine "bilmiyorum" demeyi öğreniyor.
Bu noktayı yineleyen Bridgewater Associates'ten bir referans, yükseltmedeki en büyük farkın "Opus 4.8'in bir analizin girdi ve çıktılarıyla ilgili sorunları proaktif olarak işaretleme eğilimi olduğunu, diğer modellerin rutin olarak kaçırdığı ve kullanıcılara bıraktığı bir şey" olduğunu söyledi. Yani temelde, patron görmeden önce elektronik tablo hatalarını gösteren ofis çalışanı.
Yeni modelle birlikte Anthropic, araştırma önizlemesinde sunulacak Dinamik İş Akışları adlı bir özellik başlattı. Sistem, Opus gibi daha büyük modellerin yüzlerce paralel alt temsilci arasında karmaşık görevleri yönetmesine yardımcı olmak için tasarlandı. Çünkü bin görevi yöneten bir AI yeterince hırslı değildi.
"Claude Code, Opus 4.8 ile birlikte artık yüz binlerce satır kod içeren kod tabanı ölçeğinde geçişleri başlangıçtan birleştirmeye kadar gerçekleştirebilir, mevcut test paketini referans alarak," yazıda açıklanıyor. Az önce kafasının karıştığını itiraf etmeyi öğrenen bir model için oldukça fazla kod.
Anthropic, geçen ayki geçici önizlemenin siber güvenlik endişelerini artırmasının ardından en gelişmiş Mythos modelini hâlâ saklı tutuyor. Ancak şirket, bugünkü Opus sürümünde Mythos önizleme döneminin, gerekli güvenlik önlemleri tamamlandığında yakında sona erebileceğini ima etti.
"Bu güvenlik önlemlerini geliştirmede hızlı ilerleme kaydediyoruz ve önümüzdeki haftalarda Mythos sınıfı modelleri tüm müşterilerimize sunmayı bekliyoruz," diye yazdı şirket. Çeviri: "Yanlışlıkla nükleer füze fırlatmasını nasıl durduracağımızı neredeyse çözdük."