Anthropic lansează grăbit Opus 4.8 cu un instrument de 'flux de lucru dinamic', posibil pentru că toți au urât ultimul

Joi, Anthropic a lansat Opus 4.8, cea mai nouă versiune a celui mai avansat model disponibil public. Modelul este disponibil peste tot, cu prețuri standard la același nivel ca și precedenta lansare Opus – pentru că nimic nu spune „inovație” ca să ceri același preț pentru un produs ușor mai puțin dezamăgitor.

Noul model apare la doar 41 de zile după lansarea lui Opus 4.7, un ciclu de upgrade mult mai rapid decât de obicei pentru Anthropic. (Cele mai recente modele Sonnet și Haiku au trei, respectiv șapte luni.) Turnura rapidă poate avea de-a face cu recepția rece a lui Opus 4.7, pe care unii utilizatori l-au găsit dezamăgitor – ceea ce în limbaj tech înseamnă „toți au dat ochii peste cap”.

În acest interval au avut loc și lansări semnificative pentru Codex de la OpenAI și modelul Gemini Flash de la Google, crescând presiunea asupra lui Anthropic de a ține pasul. Nimic ca o mică rivalitate între frați pentru a face codul să curgă.

Opus 4.8 vine cu rezultatele așteptate de top în clasamente, dar există și o atenție deosebită asupra modului în care modelul gestionează datele proaste sau incerte. În postarea de lansare, testerii timpurii ai Anthropic au descoperit că noul model „este mai predispus să semnaleze incertitudini legate de munca sa și mai puțin predispus să facă afirmații nefondate”. Cu alte cuvinte, învață în sfârșit să spună „nu știu” în loc să halucineze cu încredere.

Ecoând acest punct, o mărturie de la Bridgewater Associates a spus că cea mai mare diferență în upgrade a fost „tendința lui Opus 4.8 de a semnala proactiv probleme cu intrările și ieșirile unei analize, ceva ce alte modele ratau în mod obișnuit și lăsau utilizatorilor să prindă”. Deci este colegul de birou care arată erorile din foaia de calcul înainte ca șeful să le vadă.

Împreună cu noul model, Anthropic a lansat o funcție numită Fluxuri de Lucru Dinamice, care va fi disponibilă în previzualizare de cercetare. Sistemul este conceput pentru a ajuta modele mai mari precum Opus să gestioneze sarcini complexe pe sute de subagenți paraleli. Pentru că un AI care gestionează o mie de sarcini nu era suficient de ambițios.

„Claude Code împreună cu Opus 4.8 poate acum efectua migrări la scară de cod pe sute de mii de linii de cod, de la start până la integrare, cu suita de teste existentă ca bară”, explică postarea. Asta e mult cod pentru un model care tocmai a învățat să admită că este confuz.

Anthropic încă reține cel mai avansat model Mythos după o previzualizare tentativă luna trecută care a ridicat probleme de securitate cibernetică. Cu toate acestea, compania a sugerat în lansarea de azi a lui Opus că perioada de previzualizare Mythos s-ar putea încheia în curând, odată ce măsurile de siguranță necesare sunt finalizate.

„Facem progrese rapide în dezvoltarea acestor măsuri de siguranță și ne așteptăm să putem aduce modele de clasă Mythos tuturor clienților noștri în săptămânile următoare”, a scris compania. Traducere: „Am rezolvat aproape cum să-l oprim să lanseze accidental bombe nucleare.”

Anthropic lansează grăbit Opus 4.8 cu un instrument de 'flux de lucru dinamic', posibil pentru că toți au urât ultimul

Știri în inbox-ul tău.