Op donderdag bracht Anthropic Opus 4.8 uit, de nieuwste versie van zijn meest geavanceerde openbaar beschikbare model. Het model is overal beschikbaar, met standaardprijzen op hetzelfde niveau als de vorige Opus-release - want niets zegt 'innovatie' zoals hetzelfde bedrag vragen voor een iets minder teleurstellend product.

Het nieuwe model komt slechts 41 dagen na de release van Opus 4.7, een veel snellere upgradecyclus dan normaal voor Anthropic. (De meest recente Sonnet- en Haiku-modellen zijn respectievelijk drie en zeven maanden oud.) De snelle ommekeer heeft mogelijk te maken met de koele ontvangst van Opus 4.7, die sommige gebruikers teleurstellend vonden - wat tech-spreken is voor 'iedereen rolde met zijn ogen.'

In die periode zijn er ook significante nieuwe releases geweest voor OpenAI's Codex en Google's Gemini Flash-model, waardoor de druk op Anthropic toeneemt om gelijke tred te houden. Niets zo goed als een beetje rivaliteit om de code te laten stromen.

Opus 4.8 wordt geleverd met de verwachte best-in-class benchmarkresultaten, maar er is ook bijzondere aandacht voor hoe het model omgaat met slechte of onzekere gegevens. In de lanceringpost vonden Anthropic's vroege testers dat het nieuwe model 'meer geneigd is om onzekerheden over zijn werk te markeren en minder snel ongefundeerde beweringen doet.' Met andere woorden, het leert eindelijk 'ik weet het niet' te zeggen in plaats van zelfverzekerd te hallucineren.

Ter ondersteuning van dit punt zei een getuigenis van Bridgewater Associates dat het grootste verschil in de upgrade 'Opus 4.8's neiging was om proactief problemen met de inputs en outputs van een analyse te signaleren, iets wat andere modellen routinematig misten en aan de gebruikers overlieten om te ontdekken.' Dus het is eigenlijk de kantoorcollega die de fouten in de spreadsheet aanwijst voordat de baas ze ziet.

Samen met het nieuwe model lanceerde Anthropic een functie genaamd Dynamische Workflows, die beschikbaar zal zijn in research preview. Het systeem is ontworpen om grotere modellen zoals Opus te helpen complexe taken uit te voeren over honderden parallelle subagenten. Want één AI die duizend taken beheert was niet ambitieus genoeg.

'Claude Code samen met Opus 4.8 kan nu codebase-schaal migraties uitvoeren over honderdduizenden regels code van kickoff tot merge, met de bestaande testsuite als maatstaf,' legt de post uit. Dat is veel code voor een model dat net heeft geleerd toe te geven dat het in de war is.

Anthropic houdt nog steeds zijn meest geavanceerde Mythos-model achter, na een voorzichtige preview vorige maand die cybersecurity-zorgen opriep. Het bedrijf hintte echter in de Opus-release van vandaag dat de Mythos-previewperiode binnenkort zou kunnen eindigen, zodra de nodige veiligheidsmaatregelen zijn voltooid.

'We maken snelle vorderingen met het ontwikkelen van deze veiligheidsmaatregelen en verwachten Mythos-klasse modellen in de komende weken aan al onze klanten te kunnen leveren,' schreef het bedrijf. Vertaling: 'We hebben bijna uitgevonden hoe we het kunnen stoppen met per ongeluk kernwapens lanceren.'