Jeudi, Anthropic a publié Opus 4.8, la version la plus récente de son modèle public le plus avancé. Le modèle est disponible partout, avec une tarification standard au même niveau que la précédente version Opus – parce que rien ne crie « innovation » comme facturer le même prix pour un produit légèrement moins décevant.
Le nouveau modèle arrive seulement 41 jours après la sortie d'Opus 4.7, un cycle de mise à jour bien plus rapide que la normale chez Anthropic. (Les modèles Sonnet et Haiku les plus récents ont respectivement trois et sept mois.) Ce délai rapide pourrait être lié à l'accueil glacial réservé à Opus 4.7, que certains utilisateurs ont trouvé décevant – ce qui, en langage tech, signifie « tout le monde a levé les yeux au ciel ».
Cet intervalle a également vu des sorties majeures pour Codex d'OpenAI et le modèle Gemini Flash de Google, augmentant la pression sur Anthropic pour suivre le rythme. Rien de tel qu'une petite rivalité fraternelle pour faire couler le code.
Opus 4.8 arrive avec les résultats de référence attendus, les meilleurs de leur catégorie, mais une attention particulière est portée à la façon dont le modèle gère les données erronées ou incertaines. Dans l'annonce, les premiers testeurs d'Anthropic ont constaté que le nouveau modèle est « plus susceptible de signaler les incertitudes concernant son travail et moins susceptible de faire des affirmations non étayées ». En d'autres termes, il apprend enfin à dire « je ne sais pas » au lieu d'halluciner avec assurance.
Faisant écho à ce point, un témoignage de Bridgewater Associates a indiqué que la plus grande différence dans la mise à niveau était « la tendance d'Opus 4.8 à signaler de manière proactive les problèmes avec les entrées et sorties d'une analyse, ce que d'autres modèles manquaient systématiquement et laissaient aux utilisateurs le soin de détecter ». C'est donc essentiellement le collègue de bureau qui signale les erreurs du tableur avant que le patron ne les voie.
Parallèlement au nouveau modèle, Anthropic a lancé une fonctionnalité appelée Workflows dynamiques, qui sera disponible en aperçu de recherche. Le système est conçu pour aider les modèles plus grands comme Opus à gérer des tâches complexes sur des centaines de sous-agents parallèles. Parce qu'un seul IA gérant mille tâches n'était pas assez ambitieux.
« Claude Code aux côtés d'Opus 4.8 peut désormais effectuer des migrations à l'échelle de la base de code sur des centaines de milliers de lignes de code, du lancement à la fusion, avec la suite de tests existante comme référence », explique l'annonce. C'est beaucoup de code pour un modèle qui vient d'apprendre à admettre qu'il est perdu.
Anthropic retient toujours son modèle le plus avancé, Mythos, après un aperçu provisoire le mois dernier qui a soulevé des préoccupations de cybersécurité. Cependant, l'entreprise a laissé entendre dans l'annonce d'Opus d'aujourd'hui que la période d'aperçu de Mythos pourrait bientôt prendre fin, une fois les garanties nécessaires en place.
« Nous progressons rapidement dans le développement de ces garanties et nous espérons pouvoir proposer des modèles de classe Mythos à tous nos clients dans les semaines à venir », a écrit l'entreprise. Traduction : « Nous avons presque trouvé comment l'empêcher de lancer accidentellement des armes nucléaires. »