Anthropic wypuszcza Opus 4.8 z narzędziem 'dynamicznego przepływu pracy', prawdopodobnie dlatego, że poprzednia wersja wszystkim się nie podobała

W czwartek Anthropic wydał Opus 4.8, najnowszą wersję swojego najbardziej zaawansowanego publicznie dostępnego modelu. Model jest dostępny wszędzie, ze standardową ceną na tym samym poziomie co poprzednie wydanie Opus - bo nic tak nie mówi „innowacja” jak pobieranie tej samej opłaty za nieco mniej rozczarowujący produkt.

Nowy model pojawia się zaledwie 41 dni po premierze Opus 4.7, co jest znacznie szybszym cyklem aktualizacji niż normalnie u Anthropic. (Najnowsze modele Sonnet i Haiku mają odpowiednio trzy i siedem miesięcy.) Szybki zwrot może mieć coś wspólnego z chłodnym przyjęciem Opus 4.7, który niektórzy użytkownicy uznali za rozczarowujący - co w żargonie technicznym oznacza „wszyscy przewrócili oczami”.

W tym okresie miały również miejsce znaczące premiery Codex od OpenAI i modelu Gemini Flash od Google, co zwiększyło presję na Anthropic, by dotrzymać kroku. Nic tak nie pobudza przepływu kodu jak mała rywalizacja rodzeństwa.

Opus 4.8 przynosi oczekiwane wyniki benchmarków na najwyższym poziomie, ale szczególną uwagę poświęcono temu, jak model radzi sobie ze złymi lub niepewnymi danymi. W poście premierowym wcześni testerzy Anthropic odkryli, że nowy model „częściej sygnalizuje niepewności co do swojej pracy i rzadziej wysuwa bezpodstawne twierdzenia”. Innymi słowy, w końcu uczy się mówić „nie wiem” zamiast pewnie halucynować.

Echo tego punktu potwierdza opinia Bridgewater Associates, która stwierdziła, że największą różnicą w aktualizacji jest „skłonność Opus 4.8 do proaktywnego sygnalizowania problemów z danymi wejściowymi i wyjściowymi analizy, co inne modele rutynowo pomijały, pozostawiając użytkownikom ich wychwycenie”. Czyli to taki współpracownik z biura, który wskazuje błędy w arkuszu kalkulacyjnym, zanim zobaczy je szef.

Razem z nowym modelem Anthropic uruchomił funkcję o nazwie Dynamic Workflows, która będzie dostępna w wersji zapoznawczej. System ma pomagać większym modelom, takim jak Opus, w zarządzaniu złożonymi zadaniami w setkach równoległych podagentów. Bo jeden AI zarządzający tysiącem zadań nie był wystarczająco ambitny.

„Claude Code wraz z Opus 4.8 może teraz przeprowadzać migracje całej bazy kodu na setki tysięcy linii kodu od startu do scalenia, z istniejącym zestawem testów jako punktem odniesienia” - wyjaśnia post. To dużo kodu jak na model, który właśnie nauczył się przyznawać, że jest zagubiony.

Anthropic wciąż wstrzymuje swój najbardziej zaawansowany model Mythos po wstępnej zapowiedzi w zeszłym miesiącu, która wzbudziła obawy dotyczące cyberbezpieczeństwa. Firma zasugerowała jednak w dzisiejszym wydaniu Opus, że okres zapoznawczy Mythos może wkrótce się zakończyć, gdy niezbędne zabezpieczenia zostaną ukończone.

„Szybko postępujemy w opracowywaniu tych zabezpieczeń i spodziewamy się, że w nadchodzących tygodniach będziemy mogli udostępnić modele klasy Mythos wszystkim naszym klientom” - napisała firma. Tłumaczenie: „Prawie wymyśliliśmy, jak powstrzymać go przed przypadkowym odpaleniem nuklearnych głowic”.

Anthropic wypuszcza Opus 4.8 z narzędziem 'dynamicznego przepływu pracy', prawdopodobnie dlatego, że poprzednia wersja wszystkim się nie podobała

Wiadomości w Twojej skrzynce.