El proyecto Glasswing demostró que la IA puede encontrar los errores. ¿Quién va a arreglarlos?

La semana pasada, Anthropic anunció el Proyecto Glasswing, un modelo de inteligencia artificial tan eficaz para descubrir vulnerabilidades de software que tomaron la extraordinaria medida de posponer su lanzamiento público. En cambio, la empresa ha dado acceso a Apple, Microsoft, Google, Amazon y una coalición de otros para encontrar y corregir errores antes de que los adversarios puedan.

Mythos Preview, el modelo que condujo al Proyecto Glasswing, encontró vulnerabilidades en todos los principales sistemas operativos y navegadores. Algunos de estos errores habían sobrevivido décadas de auditorías humanas, confusión agresiva y escrutinio de código abierto. uno había sido sentado durante 27 años en OpenBSD, generalmente considerado como uno de los sistemas operativos más seguros del mundo.

Es tentador archivar esto bajo «El laboratorio de IA dice que su IA es demasiado peligrosa.» el mismo manual de estrategias que OpenAI ejecutó con GPT-2.

No tan rápido; Esta vez hay una diferencia material.

Mythos no sólo encontró CVE individuales.

  • Él encadenó cuatro errores independientes en una secuencia de explotación que omitió tanto el renderizador del navegador como el sandboxing del sistema operativo
  • Realizó una escalada de privilegios locales en Linux a través de condiciones de carrera.
  • Construyó una cadena ROP de 20 dispositivos dirigidos al servidor NFS de FreeBSD, distribuidos en paquetes.

Claude Opus 4.6, el modelo de frontera anterior de Anthropic, falló casi por completo en el desarrollo autónomo de exploits.Mythos alcanzó una tasa de éxito del 72,4% en el shell Firefox JS.

Esto no es teórico ni una nueva predicción de tres a cinco años. Esto está a punto de ser una realidad de la ingeniería en el mundo real.

Por qué el Proyecto Glasswing expone la verdadera brecha de ciberseguridad

Aquí está la cifra que debería mantener despiertos a los líderes de seguridad por la noche: menos del 1% de las vulnerabilidades encontradas por Mythos fueron parcheadas.

Dejemos que eso se asimile por un momento.

El motor de descubrimiento de vulnerabilidades más potente jamás creado se ejecutó contra el software más crítico del mundo y el ecosistema no pudo absorber el resultado.

Glasswing resolvió el problema de búsqueda.

Nadie resolvió el problema de la reparación.

Por qué los defensores no pueden seguir el ritmo: velocidad del calendario versus velocidad de la máquina

Este es el problema estructural que la industria de la ciberseguridad ha estado dando vueltas durante años. La IA simplemente hizo que fuera imposible ignorarlo.

Los defensores operan velocidad del calendario. Ellos:

  • Reunir inteligencia
  • Construye una campaña
  • Simular las amenazas
  • Mitigar
  • Repetir

Ese ciclo dura aproximadamente cuatro días en un buen día. Los atacantes, especialmente aquellos que ahora aprovechan los LLM en cada etapa de su operación, son moviéndose a la velocidad de la máquina.

Para obtener información actualizada, David B. Cross, CISO de Atlassian, hablará en el Cumbre de Validación Autonómica el 12 de mayo sobre cómo se ve esto desde adentro, por qué las pruebas periódicas no pueden seguir el ritmo de los adversarios que operan de forma autónoma y qué deberían hacer los defensores en su lugar.

Los ataques impulsados ​​por IA ya son autónomos

A principios de este año, un actor de amenazas desplegó un servidor MCP personalizado que aloja un LLM como parte de su cadena de ataque contra electrodomésticos FortiGate.

La IA se encargó de todo:

  • Creación automatizada de puerta trasera
  • Mapeo de infraestructura interna alimentado directamente al modelo.
  • Evaluación autónoma de vulnerabilidad, y
  • Ejecución priorizada por IA de herramientas ofensivas para el acceso de administrador de dominio.

¿El resultado? 2.516 organizaciones en 106 países se vieron comprometidas en paralelo. Toda la cadena, desde el acceso inicial hasta el volcado de credenciales y la exfiltración de datos, era autónoma. La única participación humana fue revisar los resultados después.

El descubrimiento de vulnerabilidades basado en IA está superando la solución

La brecha entre la velocidad del atacante y la velocidad del defensor no es nueva.

La novedad es que una pequeña pero preocupante brecha acaba de convertirse en un cañón.

  • Sistemas autónomos como AISLE descubierto 13 de 14 CVE de OpenSSL en versiones coordinadas recientes, errores que habían sobrevivido a años de revisión humana.
  • XBOW se convirtió en el mejor clasificado hacker en HackerOne en 2025, superando a todos los participantes humanos.
  • El tiempo medio desde la divulgación hasta el ataque armado abandonó de 771 días en 2018 a horas de un solo dígito en 2024.
  • Para 2025, la mayoría de los exploits se utilizarán como armas. antes siendo divulgada públicamente.

Ahora agregue el descubrimiento de clase Mythos a esta imagen.

No se obtiene automáticamente un mundo más seguro. Obtienes un Tsunami de hallazgos legítimos que aún requieren verificación humanaprocesos organizacionales, consideraciones de continuidad del negocio y ciclos de parches que no han cambiado fundamentalmente en una década.

Cómo crear un programa de seguridad preparado para Mythos

El instinto después de Glasswing es preguntar: «¿Cómo encontramos más errores?»

En realidad, esa es la pregunta equivocada.

La correcta es: «Cuando miles de vulnerabilidades explotables lleguen a su escritorio mañana por la mañana, ¿Puede su programa realmente procesarlos?«

Para la mayoría de las organizaciones, la respuesta honesta es no. Y la razón no es la falta de herramientas o talento; es estructural dependencia de periódicos, procesos iniciados por el hombre que fueron diseñados para un mundo donde las vulnerabilidades aparecieron lentamente, no uno donde llegaron en forma de tsunami.

No podemos solucionar todas las vulnerabilidades. No podemos aplicar todas las opciones de endurecimiento.

Eso no es derrotismoese es el punto de partida pragmático para cualquier programa de seguridad que realmente funcione. La pregunta que importa no es «¿es este CVE crítico?» pero «¿Se puede explotar esta vulnerabilidad en mi entorno en este momento, teniendo en cuenta lo que he implementado?«

Un programa de seguridad preparado para Mythos Necesita tres piezas fundamentales.

Primero: validación basada en señales sobre pruebas programadas

Cuando surge una nueva amenaza, cuando cambia un activo o cuando una configuración cambia, es necesario proteger las defensas. probado contra ese cambio específico en ese momento. No durante el próximo pentest trimestral. No cuando alguien puede encontrar un espacio libre en el calendario.

Todo el concepto de «validación programada» supone un panorama de amenazas estable y, hoy en día, eso la suposición está muerta al llegar.

Segundo: contexto ambiental específico sobre puntuaciones CVSS genéricas

Glasswing producirá una avalancha de CVE.

Sin embargo, la mayoría de los programas de gestión de vulnerabilidades todavía tienen prioridad según las puntuaciones CVSS. Esta métrica libre de contexto le indica qué tan grave es un error. podría ser en teoríano si es explotable en su infraestructura específicadados sus controles y riesgo comercial.

Cuando el volumen de hallazgos pasa repentinamente de cientos a milesla priorización libre de contexto no sólo lo ralentizará; romperá tu proceso por completo.

Tercero: Remediación de circuito cerrado sin transferencia manual

El modelo actual no puede sobrevivir en un mundo donde los adversarios explotan los CVE a las pocas horas de su divulgación. Ya conoces el ejercicio:

  • El escáner encuentra un error
  • El analista lo clasifica
  • El billete va a otro equipo.
  • Alguien lo parchea semanas después
  • Nadie revalida

Esa cadena de transferencias manuales es exactamente donde el sistema se desintegra. Si el ciclo desde la búsqueda hasta la revalidación no puede ejecutarse sin que los humanos transfieran los tickets entre las colas, claramente no se está ejecutando ni cerca de la velocidad de la máquina.

No se trata de comprar más herramientas. Se trata de que los defensores aprovechen su una ventaja asimétrica: conoce la topología de su organización, los atacantes no.

Esa es una ventaja significativa, pero sólo si puedes actuar a la velocidad de una máquina.

Cómo la validación de la exposición autónoma cierra la brecha y dónde entra en juego Picus

Esta es la parte en la que seré realmente transparente sobre quién escribe esto.

En Picus Security construimos una plataforma para Validación de exposición autónoma. Entonces, para ser revelador, tengo una perspectiva aquí que viene con un sesgo inherente. Tómalo en consecuencia.

Lo que Glasswing cristalizó para nosotros, y para muchos de los CISO con los que hemos estado hablando, es que el paso de validación dentro de cualquier programa de gestión de exposición acaba de convertirse en el cuello de botella más crítico.

  • Encontrar vulnerabilidades está a punto de volverse radicalmente más fácil y eficiente
  • Parcharlos seguirá siendo dolorosamente lento.

La única palanca que puedes tirar en el medio es saber cuáles realmente importan a su entorno. Eso es validación.

De cuatro días a tres minutos: cómo los flujos de trabajo agentes cambian el ciclo

Creamos Picus Swarm, el equipo de inteligencia artificial que impulsa la validación autónoma en tiempo real, para comprimir el ciclo tradicional de cuatro días en minutos.

Es un conjunto de agentes de IA que trabajan juntos para hacer lo que solía requerir transferencias entre cuatro equipos separados:

  • A agente investigador ingiere y examina la inteligencia sobre amenazas.
  • A agente del equipo rojo lo mapea con su entorno para generar un manual de estrategias para atacantes con control de seguridad.
  • A agente simulador se ejecuta en sus puntos finales reales y en la nube, recopilando telemetría y datos de prueba.
  • A agente coordinador une los hallazgos con la remediación, la apertura de tickets, la activación de libros de jugadas SOAR, el envío de indicadores de ataque a su EDR y la revalidación después de que se solucionen los problemas.

Cada acción es rastreable y auditable, y cada agente opera dentro de las barreras de seguridad que usted defina.

Toda la cadena, desde una nueva alerta CISA hasta hallazgos validados y listos para remediar, se ejecuta en aproximadamente tres minutos.

cuando un El modelo de clase Mythos arroja miles de hallazgos en su organización, necesita algo que pueda indicarle inmediatamente cuáles de estos son explotables en su entorno. ¿Qué controles se mantendrían, cuáles fallarían y cuál es la solución específica del proveedor?

La incómoda verdad

El Proyecto Glasswing se medirá con una métrica: cuántas vulnerabilidades se parchean antes de ser explotadas. No cuántos se encuentran, ni cuán impresionantes son las cadenas de exploits, sino si el ecosistema puede digerir lo que la IA está a punto de producir.

La visibilidad por sí sola nunca ha sido suficiente: el 83% de los programas de ciberseguridad aún no muestran resultados mensurables. Lo que está cambiando la ecuación es cerrando la brecha entre ver y probar: saber si una posible vulnerabilidad realmente comprometería su entorno.

Eso es validación.

Y en un mundo posterior a Glasswing, es lo único que se interpone entre una avalancha de descubrimientos y una avalancha de brechas.

Celebraremos la Cumbre de Validación Autónoma los días 12 y 14 de mayo con Frost & Sullivan, en la que participarán profesionales de Kraft Heinz y Glow Financial Services, junto con nuestro CTO, Volkan Erturk. Juntos, profundizaremos en este problema específico.

>> Regístrate aquí.

Nota: Este artículo fue escrito por Sıla Özeren HacıoğluIngeniero de Investigación de Seguridad en Picus Security.

¿Encontró interesante este artículo? Este artículo es una contribución de uno de nuestros valiosos socios. Síguenos en noticias de google, Gorjeo y LinkedIn para leer más contenido exclusivo que publicamos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *