Anthropic escondió la IA más peligrosa del mundo para que nadie pudiera usarla. Unos hackers la hallaron usando sentido común

La noticia de hace dos semanas era que Anthropic dio a conocer la existencia de Claude Mythos, un modelo avanzado con una capacidad sin precedentes para encontrar y explotar vulnerabilidades de software. La firma ha sido tajante en la necesidad de mantenerlo fuera del alcance del público en general, debido a sus supuestas habilidades que, alega, harían en extremo peligroso que caiga en las manos equivocadas.
Bueno, la noticia de esta semana es que terceros no identificados obtuvieron acceso no autorizado al modelo protegido de Anthropic.
«Estamos investigando un informe que afirma acceso no autorizado a Claude Mythos Preview a través de uno de nuestros entornos de proveedores externos», dijo un portavoz de Anthropic a TechCrunch. Lo más llamativo del episodio es que acceder a la que bien podría ser la herramienta de seguridad basada en IA más avanzada del mundo no implicó tácticas propias de una película de espías, sino una sucesión bastante predecible de descuidos y suposiciones informadas.
Los miedos sobre Mythos
Dimensionar el poder real de esta herramienta secreta es complicado, justamente por la decisión de Anthropic de mantenerla bajo llave. Si bien es entendible que existan razones legítimas para la cautela, no es posible ignorar que lanzar advertencias sobre herramientas “demasiado poderosas” es útil para consolidar la posición de una firma como un actor responsable, pero también permite crear expectativa sin el escrutinio general de su tecnología, siempre bajo la premisa de la seguridad pública.
Así pues, en ausencia de pruebas externas, tenemos lo que dice Anthropic: Mythos posee un nivel de comprensión de código tan profundo que puede identificar y, lo que es peor, explotar vulnerabilidades de día cero -fallos en la arquitectura de un software que los propios creadores originales aún desconocen- en los sistemas operativos y navegadores web más utilizados.
Quien descubre primero uno de estos fallos tiene control absoluto, porque no existe un parche defensivo para una brecha que nadie sabe que está ahí. Encontrar uno solo de estos fallos puede requerir meses de análisis humano y, una vez hallado, puede venderse por millones en el mercado negro. Lo que dice Anthropic es que Mythos puede encontrarlos de forma automatizada y masiva.
Precisamente por eso, Anthropic creó el Proyecto Glasswing, que utiliza el preview de Mythos para identificar y corregir vulnerabilidades en software crítico. En alianza con gigantes tecnológicos como Google, Microsoft, Amazon y Apple, el proyecto busca asegurar infraestructuras esenciales, y ha detectado ya, según se indicó, miles de fallos de seguridad. Entre ellos, según relata la empresa en el blog de su Frontier Red Team, se cuenta uno que permaneció activo 27 años en OpenBSD.
El problema es que la existencia del Proyecto Glasswing se volvió un faro que guio a un colectivo de hackers hasta la puerta. El mismo día que se anunció el lanzamiento hiperrestringido de Mythos, un grupo privado de usuarios en la plataforma Discord consiguió entrar al modelo. Según el informe de Mashable, para lograrlo no tuvieron que romper ninguna encriptación militar -no hubo líneas de código verde cayendo por la pantalla tipo Matrix- sino solo suponer, con base en patrones extraídos de una filtración previa, las direcciones del proyecto, siguiendo convenciones lógicas y predecibles que los desarrolladores usan para agilizar el trabajo interno.
‘Mal uso del acceso’
Pero una puerta necesita una llave y, en ese punto, los hackers tuvieron suerte: uno de los miembros del grupo de Discord trabajaba para un contratista externo y sus credenciales de proveedor tenían permisos que le permitieron entrar al sistema. Es por este motivo que expertos como Raluca Saceanu consideran que más que una hazaña de vulneración, se trató de una falla en los controles.
En declaraciones a la BBC, Saceanu, directora ejecutiva de la firma SmartTek24 dijo: «Esto fue probablemente por mal uso del acceso y no por un hackeo clásico».
Por fortuna, una vez adentro, los intrusos no se dedicaron a lanzar ciberataques contra corporaciones globales sino que probaron el poder de Mythos haciendo páginas web simples y pidiéndole escribir código rutinario. Pudo haber sido mucho peor y, gracias a Mozilla, sabemos exactamente cuánto.
El expediente Firefox

La colaboración directa de Anthropic con el equipo de Mozilla puso de relieve los alcances de Mythos de una manera inquietante. A pesar de que esta semana se lanzó la versión 150 del navegador Firefox, la IA detectó 271 vulnerabilidades en el código, escondidas a los ojos humanos.
Bobby Holley, CTO de Firefox, lo relató en el blog de la compañía:
“Desde febrero, el equipo de Firefox ha estado trabajando sin descanso utilizando modelos de IA de vanguardia para encontrar y corregir vulnerabilidades latentes de seguridad en el navegador. En el pasado, escanear Firefox con Opus 4.6 llevó a corregir 22 errores sensibles a la seguridad en Firefox 148. Ahora tuvimos la oportunidad de aplicar una versión temprana de Claude Mythos Preview a Firefox. La versión de esta semana de Firefox 150 incluye correcciones para 271 vulnerabilidades identificadas durante esta evaluación inicial”.
Los métodos tradicionales para buscar errores funcionan mediante patrones conocidos y se concentran en firmas específicas. En ese sentido son como perros rastreadores, que requieren que alguien les muestre el olor que deben buscar. En comparación, Mythos no sólo busca patrones, sino que comprende la semántica y la lógica de programación.
Eso es lo que explica los reparos frente a la liberación pública de este modelo. Históricamente, un atacante tenía que gastar recursos inmensos para encontrar una vulnerabilidad. El defensor sólo implementaba buenas prácticas y esperaba. La IA amenaza con invertir la proporción y sacar a la luz cada bug y cada fallo que llevan años escondido en el código fuente. Y no es un fenómeno aislado de Anthropic; OpenAI está desarrollando un modelo equivalente llamado GPT-5.4 Cyber, que describe como clave para la nueva era de la ciberdefensa.
Por todo esto, es probable que la utilidad más inmediata de Mythos y otros modelos similares resida en su capacidad para visibilizar de una manera dramática las deficiencias en el desarrollo de software como lo conocemos. Al automatizar la detección de errores que para empezar nunca debieron existir, el modelo presiona a la industria para abandonar el ciclo interminable de parches reactivos y la insostenible persistencia de una infraestructura crítica que depende de defensas manuales en una época de ataques a la velocidad de la máquina.
DERECHOS DE AUTOR
Esta información pertenece a su autor original y fue recopilada del sitio https://www.xataka.com.mx/robotica-e-ia/anthropic-escondio-ia-peligrosa-mundo-nadie-pudiera-usarla-unos-hackers-hallaron-usando-sentido-comun



