El jueves, Anthropic lanzó Opus 4.8, la versión más reciente de su modelo público más avanzado. El modelo está disponible en todas partes, con precios estándar al mismo nivel que el lanzamiento anterior de Opus, porque nada dice "innovación" como cobrar lo mismo por un producto ligeramente menos decepcionante.
El nuevo modelo llega solo 41 días después del lanzamiento de Opus 4.7, un ciclo de actualización mucho más rápido de lo normal para Anthropic. (Los modelos más recientes Sonnet y Haiku tienen tres y siete meses, respectivamente). La rápida rotación puede tener algo que ver con la fría recepción de Opus 4.7, que algunos usuarios encontraron decepcionante, lo que en lenguaje tecnológico significa "todos pusieron los ojos en blanco".
Ese intervalo también ha visto lanzamientos significativos de Codex de OpenAI y el modelo Gemini Flash de Google, aumentando la presión sobre Anthropic para mantener el ritmo. Nada como un poco de rivalidad entre hermanos para que fluya el código.
Opus 4.8 viene con los esperados resultados de referencia de primer nivel, pero también hay atención particular a cómo el modelo maneja datos malos o inciertos. En el post de lanzamiento, los primeros evaluadores de Anthropic encontraron que el nuevo modelo es "más propenso a señalar incertidumbres sobre su trabajo y menos propenso a hacer afirmaciones sin respaldo". En otras palabras, finalmente está aprendiendo a decir "no sé" en lugar de alucinar con confianza.
Haciendo eco de este punto, un testimonio de Bridgewater Associates dijo que la mayor diferencia en la actualización fue "la tendencia de Opus 4.8 a señalar proactivamente problemas con las entradas y salidas de un análisis, algo que otros modelos rutinariamente pasaban por alto y dejaban a los usuarios para que lo detectaran". Así que es básicamente el colega de oficina que señala los errores de la hoja de cálculo antes de que el jefe los vea.
Junto con el nuevo modelo, Anthropic lanzó una función llamada Flujos de Trabajo Dinámicos, que estará disponible en vista previa de investigación. El sistema está diseñado para ayudar a modelos más grandes como Opus a manejar tareas complejas a través de cientos de subagentes paralelos. Porque una IA gestionando mil tareas no era lo suficientemente ambicioso.
"Claude Code junto con Opus 4.8 ahora puede realizar migraciones a escala de código base a través de cientos de miles de líneas de código desde el inicio hasta la fusión, con el conjunto de pruebas existente como su referencia", explica el post. Eso es mucho código para un modelo que acaba de aprender a admitir que está confundido.
Anthropic aún retiene su modelo más avanzado Mythos después de una vista previa tentativa el mes pasado que generó preocupaciones de ciberseguridad. Sin embargo, la empresa insinuó en el lanzamiento de Opus de hoy que el período de vista previa de Mythos podría terminar pronto, una vez que se completen las salvaguardas necesarias.
"Estamos haciendo progresos rápidos en el desarrollo de estas salvaguardas y esperamos poder llevar modelos de clase Mythos a todos nuestros clientes en las próximas semanas", escribió la empresa. Traducción: "Casi hemos descubierto cómo evitar que lance accidentalmente armas nucleares".