På torsdagen släppte Anthropic Opus 4.8, den senaste versionen av sin mest avancerade allmänt tillgängliga modell. Modellen finns överallt, med standardprissättning på samma nivå som den tidigare Opus-utgåvan – för inget säger "innovation" som att ta betalt samma summa för en något mindre besvikande produkt.
Den nya modellen kommer bara 41 dagar efter att Opus 4.7 släpptes, en mycket snabbare uppgraderingscykel än normalt för Anthropic. (De senaste Sonnet- och Haiku-modellerna är tre respektive sju månader gamla.) Den snabba vändningen kan ha att göra med det kyliga mottagandet av Opus 4.7, som vissa användare fann nedslående – vilket på tech-språk betyder "alla himlade med ögonen."
Under den perioden har det också kommit betydande nya utgåvor från OpenAIs Codex och Googles Gemini Flash-modell, vilket ökat pressen på Anthropic att hålla jämna steg. Inget som ett litet syskonrivalitet för att få koden att flyta.
Opus 4.8 kommer med förväntade bäst-i-klassen benchmarkresultat, men det finns också särskild uppmärksamhet på hur modellen hanterar dålig eller osäker data. I lanseringsinlägget fann Anthropics tidiga testare att den nya modellen "är mer benägen att flagga osäkerheter om sitt arbete och mindre benägen att göra ogrundade påståenden." Med andra ord lär den sig äntligen att säga "jag vet inte" istället för att självsäkert hallucinera.
För att understryka denna punkt sade ett vittnesmål från Bridgewater Associates att den största skillnaden i uppgraderingen var "Opus 4.8:s tendens att proaktivt flagga problem med input och output i en analys, något andra modeller rutinmässigt missade och lämnade åt användarna att upptäcka." Så det är i princip kontorskollegan som påpekar fel i kalkylarket innan chefen ser dem.
Tillsammans med den nya modellen lanserade Anthropic en funktion som heter Dynamic Workflows, som kommer att finnas tillgänglig i forskningsförhandsvisning. Systemet är utformat för att hjälpa större modeller som Opus att hantera komplexa uppgifter över hundratals parallella underagenter. För att en AI som hanterar tusen uppgifter inte var ambitiöst nog.
"Claude Code tillsammans med Opus 4.8 kan nu utföra kodbasomfattande migreringar över hundratusentals rader kod från start till merge, med den befintliga testsviten som riktmärke," förklarar inlägget. Det är mycket kod för en modell som precis lärt sig att erkänna att den är förvirrad.
Anthropic håller fortfarande tillbaka sin mest avancerade Mythos-modell efter en preliminär förhandsvisning förra månaden som väckte cybersäkerhetsproblem. Företaget antydde dock i dagens Opus-utgåva att Mythos-förhandsvisningsperioden snart kan ta slut, när nödvändiga skyddsåtgärder är klara.
"Vi gör snabba framsteg med att utveckla dessa skyddsåtgärder och förväntar oss att kunna erbjuda Mythos-klassmodeller till alla våra kunder under de kommande veckorna," skrev företaget. Översättning: "Vi har nästan listat ut hur vi ska hindra den från att av misstag avfyra kärnvapen."