Anthropic presenta Claude Opus 4.8

Estamos actualizando Claude Opus a una nueva versión: Claude Opus 4.8. Basándose en Opus 4.7, incorpora mejoras significativas en diversos benchmarks, consolidándose como un colaborador más eficaz. Lo mejor de todo es que está disponible desde hoy al mismo precio.

El lanzamiento de Opus 4.8 viene acompañado de varias características innovadoras. Ahora, los usuarios de claude.ai pueden controlar el nivel de esfuerzo que Claude dedica a cada tarea. Además, Claude Code introduce una función de «flujos de trabajo dinámicos» que le permite abordar problemas de gran escala. Y la función de «modo rápido» para Opus 4.8, que permite al modelo trabajar a 2.5 veces la velocidad, ahora es tres veces más económica que en versiones anteriores.

Capacidades Avanzadas de Claude Opus 4.8: La Inteligencia de Próxima Generación

Una tabla comparativa demuestra cómo Opus 4.8 supera a su predecesor y a otros modelos líderes en pruebas de codificación, habilidades de agente, razonamiento y tareas prácticas de gestión del conocimiento. Para obtener una evaluación más detallada de sus capacidades, consulte la Tarjeta del Sistema de Claude Opus 4.8.

Colaboración Sin Precedentes: La Experiencia con Claude Opus 4.8

Los primeros evaluadores han destacado que Claude Opus 4.8 es notablemente más fiable y perspicaz en su juicio al ejecutar tareas de agente. A continuación, compartimos testimonios de usuarios sobre su experiencia colaborando con Opus 4.8:

«Claude Opus 4.8 exhibe un juicio notablemente superior. En Claude Code, formula las preguntas correctas, detecta sus propios errores, cuestiona planes poco sólidos y genera confianza en exploraciones complejas de múltiples servicios antes de implementar cambios importantes. Es un modelo excelente para desarrollar.»

«En nuestro benchmark Super-Agent, Claude Opus 4.8 es el único modelo que completa cada caso de principio a fin, superando a los modelos Opus anteriores y a GPT-5.5 con paridad de costes. Para productos de agente en traducción, investigación profunda, creación de presentaciones y análisis, ofrece una fiabilidad potente.»

«En CursorBench, Claude Opus 4.8 supera a los modelos Opus anteriores en todos los niveles de esfuerzo. La invocación de herramientas es significativamente más eficiente, utilizando menos pasos para la misma inteligencia, y completa las tareas de principio a fin.»

«Claude Opus 4.8 logra la puntuación más alta registrada en nuestro Legal Agent Benchmark y es el primer modelo en superar el 10% global en el estándar de aprobación total. Para trabajos legales sustantivos, este aumento de precisión se traduce directamente en la cantidad de trabajo real de abogados que nuestros clientes pueden delegar con confianza.»

«Claude Opus 4.8 se siente como una actualización importante en la calidad de vida respecto a Opus 4.7: más rápido, más fácil de colaborar y mejor para mantener el contexto y la dirección de estilo durante una sesión larga. Opus 4.8 es el modelo en el que sigo confiando para trabajos donde la voz, el gusto y la ejecución técnica deben coexistir.»

«Claude Opus 4.8 es el modelo de uso de ordenador y agente de navegador más potente que hemos probado, obteniendo un 84% en Online-Mind2Web, un salto significativo sobre Opus 4.7 y GPT-5.5. Se mantiene reflexivo y centrado en la tarea, tal como las cargas de trabajo de agente de nuestros clientes necesitan ser fiables de principio a fin.»

«Claude Opus 4.8 utiliza herramientas de forma impecable y sigue instrucciones con la consistencia que nuestras cargas de trabajo de ingeniería autónoma requieren para funcionar sin supervisión. Mejora a Opus 4.6 y corrige los problemas de verbosidad de comentarios y llamadas a herramientas que observamos con Opus 4.7. Este lanzamiento de Anthropic se traduce directamente en ganancias de capacidad más rápidas para los ingenieros que construyen sobre Devin.»

«En nuestras evaluaciones a largo plazo, el análisis de Claude Opus 4.8 fue consistentemente de mayor calidad que los modelos Opus anteriores. Terminó más rápido y produjo resultados más ricos y densos en información. En general, una relación señal-ruido notablemente mejor. El mayor diferenciador fue la tendencia de Opus 4.8 a señalar proactivamente los problemas con las entradas y salidas de un análisis, algo que otros modelos rutinariamente pasaban por alto y dejaban a los usuarios.»

«En CoCounsel Legal, Claude Opus 4.8 ofreció mejoras significativas en consistencia y calidad de razonamiento en comparación con modelos Opus anteriores. Para los flujos de trabajo profesionales de alto riesgo de nuestros clientes, esa fiabilidad es crucial. Al construir sistemas de IA de grado fiduciario para profesionales legales y fiscales, avances como estos ayudan a elevar el estándar de rendimiento de la IA confiable en flujos de trabajo del mundo real.»

«Claude Opus 4.8 establece un nuevo estándar para la IA empresarial. En Genie, el agente de IA de Databricks para el trabajo con datos y conocimiento, el nuevo modelo Opus representa un cambio cualitativo en el razonamiento de agente, abordando preguntas más profundas y de varios pasos más rápido que cualquier Opus anterior. Su fuerza multimodal también permite a Genie razonar directamente sobre PDFs, diagramas y otros contenidos no estructurados con un coste de token un 61% más barato que Opus 4.7.»

«Para los flujos de trabajo de documentos financieros en el orquestador de Hebbia, Claude Opus 4.8 ofrece la misma calidad sólida que Opus 4.7 con una precisión de citación notablemente mejor y una mayor eficiencia de tokens en la recuperación, lo que funciona increíblemente bien para los tipos de documentos densos que nuestros clientes manejan a diario.»

Una de las mejoras más destacadas en Opus 4.8 es su honestidad. Entrenamos a todos nuestros modelos para ser honestos, evitando afirmaciones sin respaldo. Sin embargo, un problema general con los modelos de IA es que a veces sacan conclusiones precipitadas, declarando con confianza haber avanzado en su trabajo a pesar de la escasa evidencia. Los primeros evaluadores informan que Opus 4.8 es más propenso a señalar incertidumbres sobre su trabajo y menos dado a hacer afirmaciones sin fundamento. Esto se confirma en nuestras evaluaciones, que muestran que Opus 4.8 tiene aproximadamente cuatro veces menos probabilidades que su predecesor de permitir que los defectos en el código que ha escrito pasen desapercibidos.

Como es habitual, realizamos una evaluación detallada de alineación del modelo antes de su lanzamiento. En cuanto a sus características positivas, nuestro equipo de Alineación concluyó que Opus 4.8 «alcanza nuevos máximos en nuestras métricas de rasgos prosociales, como el apoyo a la autonomía del usuario y la actuación en su mejor interés». La evaluación también mostró que Opus 4.8 presenta tasas de comportamiento desalineado (como el engaño o la cooperación con el uso indebido) sustancialmente más bajas que Opus 4.7, y similares a nuestro modelo mejor alineado, Claude Mythos Preview. La evaluación completa de alineación, junto con una serie de pruebas de seguridad previas al despliegue, se detalla en la Tarjeta del Sistema de Claude Opus 4.8.

Ilustración de las mejoras de seguridad y alineación de Claude Opus 4.8.

Nuevas Funcionalidades Impulsadas por Claude Opus 4.8

Además del lanzamiento de Claude Opus 4.8, presentamos las siguientes actualizaciones:

Flujos de trabajo dinámicos. Esta nueva característica, disponible en vista previa de investigación, permite a Claude asumir tareas aún más grandes en Claude Code. Claude puede planificar el trabajo y luego ejecutar cientos de subagentes en paralelo en una sola sesión (y con Opus 4.8, los agentes pueden operar durante aún más tiempo). Luego, verifica sus resultados antes de informar al usuario. Por ejemplo, Claude Code con Opus 4.8 ahora puede realizar migraciones de código a escala de cientos de miles de líneas de código, desde el inicio hasta la fusión, utilizando la suite de pruebas existente como estándar. Puede obtener más información sobre los flujos de trabajo dinámicos, disponibles en Claude Code para los planes Enterprise, Team y Max, en esta publicación.
Control de esfuerzo en claude.ai y Cowork. Un nuevo control junto al selector de modelo permite a los usuarios elegir cuánto esfuerzo dedica Claude a una respuesta. Con configuraciones de mayor esfuerzo, Claude reflexionará con más frecuencia y profundidad para ofrecer mejores respuestas. Con configuraciones de menor esfuerzo, Claude responderá más rápido y consumirá los límites de velocidad del usuario de forma más lenta. Los usuarios tienen ahora esta opción; el control de esfuerzo está disponible en todos los planes.
La API de Mensajes ahora acepta entradas de sistema dentro del array de mensajes. Los desarrolladores pueden actualizar las instrucciones de Claude en medio de una tarea sin romper la caché de prompt ni enrutar la actualización a través de una interacción del usuario. Esto se puede utilizar en un arnés dado para actualizar permisos, presupuestos de tokens o el contexto del entorno mientras un agente se ejecuta.

Optimización del Esfuerzo: Maximizando el Rendimiento de Claude Opus 4.8

Opus 4.8 se configura por defecto en un nivel de «alto esfuerzo», el cual consideramos el mejor equilibrio entre calidad y experiencia de usuario. En tareas de codificación, este nivel de esfuerzo consume una cantidad similar de tokens que el predeterminado de Opus 4.7, pero con un rendimiento superior. Los usuarios pueden seleccionar «extra» (xhigh en Claude Code) o «máximo», y el modelo utilizará más tokens para obtener resultados aún mejores; recomendamos «extra» para tareas complejas y flujos de trabajo asíncronos de larga duración. Hemos aumentado los límites de velocidad en Claude Code para adaptarse al mayor uso de tokens en niveles de esfuerzo más altos; los usuarios pueden elegir la opción que mejor se adapte a su proyecto específico.

El Futuro de la IA con Anthropic: Más allá de Claude Opus 4.8

Los usuarios percibirán en Opus 4.8 una mejora modesta pero palpable respecto a su predecesor. Sin embargo, nuestro trabajo continúa: estamos desarrollando y lanzando modelos que ofrecerán muchas de las mismas capacidades que Opus, pero a un coste más reducido.

Además, planeamos lanzar una nueva clase de modelo con una inteligencia aún superior a la de Opus. Como parte del Proyecto Glasswing, un número limitado de organizaciones ya está utilizando Claude Mythos Preview para tareas de ciberseguridad. Los modelos de este nivel de capacidad requieren mayores salvaguardias cibernéticas antes de su lanzamiento general. Estamos progresando rápidamente en el desarrollo de estas salvaguardias y esperamos poder ofrecer los modelos de clase Mythos a todos nuestros clientes en las próximas semanas.

Disponibilidad y Precios de Claude Opus 4.8

Claude Opus 4.8 está disponible globalmente desde hoy. Los precios para el uso regular permanecen sin cambios respecto a Opus 4.7: $5 por millón de tokens de entrada y $25 por millón de tokens de salida. El precio para el modo rápido es de $10 por millón de tokens de entrada y $50 por millón de tokens de salida. Los desarrolladores pueden acceder a claude-opus-4-8 a través de la API de Claude.

DnG