Qué tan peligroso es en realidad Claude Mythos, el nuevo modelo de IA de Anthropic

El nuevo modelo de Anthropic, conocido como Claude Mythos Preview, ha puesto a la industria de la inteligencia artificial (IA) de cabeza. La compañía afirma que las capacidades de este sistema son tan avanzadas que, en caso de caer en manos de agentes maliciosos, podría representar una grave amenaza para la economía, la seguridad pública y la seguridad nacional. Pese a la advertencia, existen dudas sobre qué tan peligroso es en realidad el algoritmo que, por ahora, solo está disponible para poco más de 40 organizaciones.
Claude Mythos es un modelo de propósito general con capacidades de razonamiento, autonomía y programación que supera a cualquier otro sistema avanzado entrenado por Anthropic.
El modelo se filtró por accidente a finales de marzo, cuando un fallo de configuración en el sistema de gestión de contenidos de Anthropic reveló el código de programación de Claude Code. En ese momento, el algoritmo se identificó con el nombre interno de “Capybara” y hacía referencia a una variante cualitativamente mejorada de Claude Opus 4.6.
En pruebas internas, Claude Mythos mostró mejoras sustanciales en razonamiento y autonomía, así como en la gestión y generación de código respecto a su antecesor. Estas condiciones derivaron en un efecto secundario no previsto, es decir, el sistema demostró ser particularmente eficaz para encontrar fallas y vulnerabilidades de software.
En la prueba CyberGym, diseñada para evaluar la capacidad de un sistema de IA en tareas de análisis de vulnerabilidades, Claude Mythos alcanzó una tasa de éxito del 83.1%. Hasta ahora, Opus 4.6 lideraba este benchmark con un 66.6%.
Las evaluaciones internas de Anthropic indican que, mientras Opus 4.6 es capaz de identificar cerca de 500 vulnerabilidades zero-day en software de código abierto, Mythos logró detectar “decenas de miles de vulnerabilidades de alta gravedad” en cuestión de minutos. Lo más preocupante es que el sistema generó exploits funcionales para aproximadamente el 72% de las fallas identificadas.
La compañía asegura que Claude Mythos no fue entrenado de manera explícita para adquirir estas capacidades. Sin embargo, advierte que, si bien estas habilidades permiten corregir vulnerabilidades críticas, también lo vuelven considerablemente más eficaz para explotarlas con fines maliciosos.
¿Por qué preocupa tanto Claude Mythos?
Según los documentos técnicos de Anthropic, Claude Mythos puede identificar fallas con más de dos décadas de antigüedad. En las pruebas, el sistema descubrió una vulnerabilidad que llevaba más de 27 años oculta en OpenBSD, un sistema operativo reconocido por su seguridad. De igual forma, encontró una brecha de 16 años en FFmpeg, una librería de procesamiento multimedia de la que dependen numerosos servicios de video.
En paralelo, el sistema exhibe capacidades inéditas en modelos de Anthropic para generar código que aprovecha estas vulnerabilidades. Estas habilidades se observaron en una prueba sobre la explotación de fallas en el motor JavaScript de Firefox 147 de Mozilla. Mientras Opus 4.6 apenas logró convertir dichas fallas en exploits funcionales en dos ocasiones tras cientos de intentos, bajo las mismas condiciones Mythos Preview desarrolló exploits operativos en 181 ocasiones y alcanzó el control de registros en 29 intentos adicionales.
“Durante nuestras pruebas, descubrimos que Claude Mythos es capaz de identificar y explotar vulnerabilidades de día cero en los principales sistemas operativos y navegadores web cuando el usuario se lo indica”, afirmó el equipo de seguridad de la empresa.
A estas capacidades se suma la autonomía del sistema. En una prueba, los investigadores le dieron control de una computadora dentro de un entorno virtual aislado y le solicitaron intentar salir de ese sandbox para enviar un correo electrónico al ingeniero a cargo.
DERECHOS DE AUTOR
Esta información pertenece a su autor original y fue recopilada del sitio https://es.wired.com/articulos/que-tan-peligroso-es-en-realidad-claude-mythos-el-nuevo-modelo-de-ia-de-anthropic




