В четверг Anthropic выпустила Opus 4.8 — новейшую версию своей самой продвинутой общедоступной модели. Модель доступна везде, с обычной ценой на том же уровне, что и предыдущий выпуск Opus — потому что ничто так не говорит об «инновациях», как взимание той же суммы за чуть менее разочаровывающий продукт.

Новая модель выходит всего через 41 день после выпуска Opus 4.7, что является гораздо более быстрым циклом обновления, чем обычно для Anthropic. (Последние модели Sonnet и Haiku имеют возраст три и семь месяцев соответственно.) Быстрый оборот может быть связан с прохладным приемом Opus 4.7, который некоторые пользователи сочли разочаровывающим — что на техническом языке означает «все закатили глаза».

За этот же период произошли значительные релизы Codex от OpenAI и Gemini Flash от Google, что усилило давление на Anthropic, чтобы не отставать. Ничто так не стимулирует поток кода, как небольшая конкуренция между братьями.

Opus 4.8 демонстрирует ожидаемые лучшие в своем классе результаты тестов, но также уделяется особое внимание тому, как модель обрабатывает плохие или неопределенные данные. В анонсе ранние тестеры Anthropic обнаружили, что новая модель «чаще отмечает неопределенности в своей работе и реже делает необоснованные заявления». Другими словами, она наконец-то учится говорить «я не знаю» вместо того, чтобы уверенно галлюцинировать.

Подтверждая это, отзыв от Bridgewater Associates отметил, что самое большое различие в обновлении — это «склонность Opus 4.8 проактивно указывать на проблемы с входными и выходными данными анализа, что другие модели регулярно упускали и оставляли на усмотрение пользователей». Так что это, по сути, коллега в офисе, который указывает на ошибки в электронных таблицах до того, как их увидит начальник.

Вместе с новой моделью Anthropic запустила функцию «Динамические рабочие процессы», которая будет доступна в режиме предварительного просмотра. Система предназначена для помощи более крупным моделям, таким как Opus, в управлении сложными задачами с сотнями параллельных подагентов. Потому что один ИИ, управляющий тысячей задач, был недостаточно амбициозным.

«Claude Code вместе с Opus 4.8 теперь может выполнять миграции на уровне кодовой базы в сотнях тысяч строк кода от начала до слияния, используя существующий набор тестов в качестве ориентира», — объясняется в сообщении. Это много кода для модели, которая только что научилась признавать, что она сбита с толку.

Anthropic по-прежнему удерживает свою самую продвинутую модель Mythos после предварительного просмотра в прошлом месяце, который вызвал проблемы кибербезопасности. Однако компания намекнула в сегодняшнем выпуске Opus, что период предварительного просмотра Mythos может скоро закончиться, как только будут завершены необходимые меры защиты.

«Мы быстро продвигаемся в разработке этих мер защиты и ожидаем, что сможем предоставить модели класса Mythos всем нашим клиентам в ближайшие недели», — написала компания. Перевод: «Мы почти поняли, как помешать ей случайно запустить ядерные ракеты».