木曜日、Anthropicは最新の最上位公開モデル『Opus 4.8』をリリースした。このモデルはどこでも利用可能で、価格は前回のOpusリリースと同じ標準料金——「イノベーション」とは、少しだけ失望の少ない製品に同じ金額を請求することに他ならない。
新モデルはOpus 4.7のリリースからわずか41日後で、Anthropicとしては異例の速さでのアップグレードサイクルだ(最新のSonnetとHaikuモデルはそれぞれ3ヶ月前と7ヶ月前のリリース)。この急ピッチなターンアラウンドは、Opus 4.7が冷ややかな反応を受けたことと関係があるかもしれない。一部のユーザーは失望したという——テック用語で言えば「全員が白目をむいた」ということだ。
その間、OpenAIのCodexやGoogleのGemini Flashモデルも重要な新リリースを行い、Anthropicに追従の圧力がかかっている。ちょっとした兄弟げんかがコードを流れやすくするものだ。
Opus 4.8は期待通りのトップクラスのベンチマーク結果を誇るが、特に注目すべきは、モデルが不良データや不確かなデータをどう扱うかだ。ローンチ投稿で、Anthropicの初期テスターは、新モデルが「自分の作業の不確かさを指摘する傾向が強く、根拠のない主張をする傾向が弱い」と述べている。つまり、自信満々に幻覚を見る代わりに、「わかりません」と言うことをようやく学んだのだ。
この点を裏付けるように、Bridgewater Associatesからの推薦文では、アップグレードの最大の違いは「Opus 4.8が分析の入力と出力の問題を積極的に指摘する傾向があること。他のモデルはよく見逃し、ユーザーに任せていた」と述べている。つまり、上司が気づく前にスプレッドシートのエラーを指摘してくれる同僚のようなものだ。
新モデルと同時に、Anthropicは研究プレビューとして利用可能な『Dynamic Workflows』機能を発表した。このシステムは、Opusのような大規模モデルが数百の並列サブエージェントにわたって複雑なタスクを管理するのを支援するために設計されている。1つのAIが1000のタスクを管理するだけでは野心的ではなかったからだ。
「Claude CodeとOpus 4.8の組み合わせにより、キックオフからマージまで、コードベース規模の移行を数十万行のコードにわたって実行できるようになりました。既存のテストスイートを基準として」と投稿は説明している。混乱を認めることを学んだばかりのモデルにとっては、かなりのコード量だ。
Anthropicは、先月の暫定プレビューでサイバーセキュリティ上の懸念が生じた後、最も先進的なMythosモデルをまだ公開していない。しかし、同社は本日のOpusリリースで、必要な安全対策が完了すれば、Mythosのプレビュー期間が間もなく終了する可能性があると示唆した。
「これらの安全対策の開発を迅速に進めており、数週間以内にMythosクラスのモデルをすべてのお客様に提供できる見込みです」と同社は書いている。翻訳:「うっかり核を発射しないようにする方法をほぼ見つけました。」