Giovedì, Anthropic ha rilasciato Opus 4.8, la versione più recente del suo modello più avanzato disponibile al pubblico. Il modello è disponibile ovunque, con prezzi standard allo stesso livello del precedente rilascio Opus - perché niente dice "innovazione" come far pagare lo stesso prezzo per un prodotto leggermente meno deludente.
Il nuovo modello arriva solo 41 giorni dopo il rilascio di Opus 4.7, un ciclo di aggiornamento molto più rapido del normale per Anthropic. (I modelli Sonnet e Haiku più recenti hanno rispettivamente tre e sette mesi.) Il rapido turnaround potrebbe avere a che fare con l'accoglienza fredda riservata a Opus 4.7, che alcuni utenti hanno trovato deludente - in gergo tecnologico, "tutti hanno alzato gli occhi al cielo".
In quell'intervallo si sono verificati anche rilasci significativi per Codex di OpenAI e Gemini Flash di Google, aumentando la pressione su Anthropic per tenere il passo. Niente come un po' di rivalità tra fratelli per far scorrere il codice.
Opus 4.8 arriva con gli attesi risultati benchmark di prim'ordine, ma c'è anche particolare attenzione a come il modello gestisce dati errati o incerti. Nel post di lancio, i primi tester di Anthropic hanno scoperto che il nuovo modello è "più propenso a segnalare incertezze sul proprio lavoro e meno propenso a fare affermazioni non supportate". In altre parole, sta finalmente imparando a dire "non lo so" invece di allucinare con sicurezza.
Eco di questo punto, una testimonianza di Bridgewater Associates ha affermato che la differenza più grande nell'aggiornamento era "la tendenza di Opus 4.8 a segnalare proattivamente problemi con input e output di un'analisi, cosa che altri modelli spesso trascuravano e lasciavano agli utenti da individuare". Quindi è fondamentalmente il collega d'ufficio che segnala gli errori del foglio di calcolo prima che il capo li veda.
Insieme al nuovo modello, Anthropic ha lanciato una funzionalità chiamata Dynamic Workflows, disponibile in anteprima di ricerca. Il sistema è progettato per aiutare modelli più grandi come Opus a gestire compiti complessi attraverso centinaia di sottoagenti paralleli. Perché una singola IA che gestisce mille compiti non era abbastanza ambiziosa.
"Claude Code insieme a Opus 4.8 può ora eseguire migrazioni su scala di codebase attraverso centinaia di migliaia di righe di codice, dal kickoff al merge, con la suite di test esistente come parametro di riferimento", spiega il post. Un sacco di codice per un modello che ha appena imparato ad ammettere di essere confuso.
Anthropic sta ancora trattenendo il suo modello più avanzato Mythos dopo un'anteprima provvisoria del mese scorso che ha sollevato preoccupazioni per la sicurezza informatica. Tuttavia, l'azienda ha accennato nel rilascio di Opus di oggi che il periodo di anteprima di Mythos potrebbe presto terminare, una volta completate le necessarie salvaguardie.
"Stiamo facendo rapidi progressi nello sviluppo di queste salvaguardie e prevediamo di poter portare modelli di classe Mythos a tutti i nostri clienti nelle prossime settimane", ha scritto l'azienda. Traduzione: "Abbiamo quasi capito come impedirgli di lanciare accidentalmente bombe nucleari."