Claude Mythos de Anthropic encuentra miles de fallas de día cero en los principales sistemas

Ravie Lakshmanan08 de abril de 2026Inteligencia artificial / Codificación segura

La empresa de inteligencia artificial (IA) Anthropic anunció una nueva iniciativa de ciberseguridad llamada Proyecto Ala de Vidrio que utilizará una versión preliminar de su nuevo modelo fronterizo, Claude Mitospara encontrar y abordar vulnerabilidades de seguridad.

El modelo será usado por un pequeño conjunto de organizaciones, incluidas Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, NVIDIA y Palo Alto Networks, junto con Anthropic, para proteger el software crítico.

La compañía dijo que está formando esta iniciativa en respuesta a las capacidades observadas en su modelo de frontera de propósito general que demuestran un «nivel de capacidad de codificación donde pueden superar a todos, excepto a los humanos más capacitados, para encontrar y explotar vulnerabilidades de software». Debido a sus capacidades de ciberseguridad y a la preocupación de que se pueda abusar de ellas, Anthropic ha optado por no hacer que el modelo esté disponible de forma generalizada.

Mythos Preview, afirmó Anthropic, ya ha descubierto miles de vulnerabilidades de día cero de alta gravedad en todos los principales sistemas operativos y navegadores web. Algunos de estos incluyen un error de 27 años de antigüedad en OpenBSD, ahora parcheado, una falla de 16 años de antigüedad en FFmpeg y una vulnerabilidad que corrompe la memoria en un monitor de máquina virtual con memoria segura.

Ciberseguridad

En un caso destacado por la compañía, se dice que Mython Preview viene de forma autónoma con un exploit de navegador web que encadena cuatro vulnerabilidades para escapar de los entornos limitados de renderizado y del sistema operativo. antrópico también anotado En la tarjeta de sistema de la vista previa se muestra que el modelo resolvió una simulación de ataque a la red corporativa que a un experto humano le habría llevado más de 10 horas.

Quizás en lo que es uno de los hallazgos más sorprendentes, Mythos Preview logró seguir las instrucciones de un investigador que realizaba una evaluación para escapar de una computadora segura «sandbox» que se le proporcionó, lo que indica una «capacidad potencialmente peligrosa» para eludir sus propias salvaguardas.

La modelo no se quedó ahí. Además, realizó una serie de acciones adicionales, incluido el diseño de un exploit de varios pasos para obtener un amplio acceso a Internet desde el sistema sandbox y enviar un mensaje de correo electrónico al investigador, que estaba comiendo un sándwich en un parque.

«Además, en un esfuerzo preocupante y no solicitado para demostrar su éxito, publicó detalles sobre su exploit en múltiples sitios web difíciles de encontrar, pero técnicamente públicos», dijo Anthropic.

La empresa señaló que Proyecto Ala de Vidrio Es un «intento urgente» de emplear capacidades del modelo de frontera con fines defensivos antes de que actores hostiles adopten esas mismas capacidades. También está comprometiendo hasta 100 millones de dólares en créditos de uso para Mythos Preview, así como 4 millones de dólares en donaciones directas a organizaciones de seguridad de código abierto.

«No entrenamos explícitamente a Mythos Preview para que tenga estas capacidades», dijo Anthropic. «Más bien, surgieron como una consecuencia posterior de mejoras generales en el código, el razonamiento y la autonomía. Las mismas mejoras que hacen que el modelo sea sustancialmente más efectivo para parchear vulnerabilidades también lo hacen sustancialmente más efectivo para explotarlas».

Las noticias sobre Mythos se filtraron el mes pasado después de que los detalles sobre el modelo se almacenaran inadvertidamente en un caché de datos de acceso público debido a un error humano. El borrador lo describió como el modelo de IA más potente y capaz construido hasta la fecha. Días después, Anthropic sufrió una segunda falla de seguridad que expuso accidentalmente cerca de 2000 archivos de código fuente y más de medio millón de líneas de código asociadas con Claude Code durante aproximadamente tres horas.

Ciberseguridad

La filtración también llevó al descubrimiento de un problema de seguridad que elude ciertas salvaguardas cuando al agente codificador de IA se le presenta un comando compuesto por más de 50 subcomandos. Desde entonces, Anthropic ha abordado formalmente el problema en Claude Code. versión 2.1.90lanzado la semana pasada.

«Claude Code, el agente de codificación de IA insignia de Anthropic que ejecuta comandos de shell en las máquinas de los desarrolladores, ignora silenciosamente las reglas de denegación de seguridad configuradas por el usuario cuando un comando contiene más de 50 subcomandos», dijo la empresa de seguridad de IA Adversa. dicho. «Un desarrollador que configura 'nunca ejecutar rm' verá rm bloqueado cuando se ejecute solo, pero el mismo 'rm' se ejecuta sin restricciones si está precedido por 50 declaraciones inofensivas. La política de seguridad desaparece silenciosamente».

«El análisis de seguridad cuesta tokens. Los ingenieros de Anthropic tuvieron un problema de rendimiento: verificar cada subcomando congeló la interfaz de usuario y quemó el cómputo. Su solución: dejar de verificar después de 50. Cambiaron seguridad por velocidad. Cambiaron seguridad por costo».

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *