El control de seguridad que se supone debe impedir que un agente de codificación de IA ejecute un comando peligroso se puede pasar directamente utilizando un truco de shell que ha sido público durante décadas.
Nueva investigación de IA adversaque se denomina bypass caída de guardiadescubrió que funciona contra diez de los once agentes populares de codificación y uso de computadoras de código abierto que la empresa probó. Sólo uno, «Continuar», fue construido para defenderse de ello.
¿Por qué importa? Estos agentes ejecutan comandos de shell con acceso completo a su cuenta. Apunte uno a un repositorio o paquete de software con trampa explosiva, y una instrucción oculta puede ejecutar silenciosamente un comando que borra archivos o roba los secretos a los que puede acceder su cuenta, desde claves SSH y credenciales de la nube hasta cualquier cosa que se encuentre en su carpeta de inicio.
¿Cómo pasa la guardia?
La mayoría de estos agentes intentan mantenerse seguros comparando cada comando con una lista de bloqueo de patrones peligrosos antes de ejecutarlo. El defecto es que verifican el comando como texto sin formato, mientras que bash reescribe ese texto antes de ejecutarlo. El shell elimina las comillas y expande los atajos, por lo que el filtro y el shell terminan mirando dos cosas diferentes.
El ejemplo más sencillo: un filtro que vigila habitación no ve nada malo en r''m, porque para un comparador de texto esas son cadenas diferentes. Bash elimina las comillas vacías y ejecuta rm de todos modos.
La misma idea funciona en otras formas: un comando oculto en base64 y canalizado a un shell, o herramientas ordinarias como find y dd se vuelven destructivas con la bandera correcta.
Los investigadores no llaman a esto un error sino «una convención peligrosa y una clase de problemas», razón por la cual agregar más patrones de lista de bloqueo no soluciona nada de esto. No existe un único CVE para rastrear o parchar.
Dos cosas tienen que alinearse para que un ataque aterrice, y ninguna es exótica.
- Primero, la IA tiene que producir el comando malicioso. Generalmente se rechaza un contundente «ejecutar rm -rf», pero el mismo comando escondido dentro de un trabajo de apariencia normal, como un archivo de compilación o la respuesta de «documentación» de una herramienta, se emite como un paso de rutina.
- En segundo lugar, el agente debe ejecutarse por sí solo, con un indicador de ejecución automática activado o su entorno de pruebas de contenedor desactivado, los cuales son rutinarios en las canalizaciones automatizadas. Las pruebas en vivo utilizaron Claude Sonnet 4.6.
Las otras diez herramientas dejaron la brecha abierta: opencode, Goose, Cline, Roo-Code, Aider, Plandex, Open Interpreter, OpenHands, SWE-agent y el proyecto Hermes, donde surgió el error por primera vez y ahora documentado en el propio rastreador de problemas de Hermes.
Las herramientas de la encuesta de Adversa tenían en conjunto aproximadamente 548.000 estrellas de GitHub en mayo de 2026. Adversa demostró el ataque completo de extremo a extremo contra el binario de producción Plandex, y la misma forma funcionó contra otros ocho. Describe el trabajo como investigación de laboratorio; no se ha informado de explotación pública.
Continúe, el único agente que se resiste, se defiende leyendo el comando como lo hará bash antes de decidir: divide el comando en las mismas partes que lo haría el shell, verifica lo que realmente se ejecuta y mantiene una lista estricta de comandos destructivos que están bloqueados por completo.
Esa protección se mantuvo contra cada carga útil en el modo de editor predeterminado de Continuar. Su modo de ejecución automática de línea de comandos es más débil: algunas cargas útiles se escaparon, aunque las más destructivas aún alcanzaron el bloque duro. Adversa considera que el diseño es portátil y dice que volver a implementarlo requiere aproximadamente un trabajo de dos días para un ingeniero experimentado.
Que hacer ahora
Ninguna de las soluciones rápidas es una respuesta completa, pero reducen su exposición hasta que se implemente la protección adecuada:
- Ejecute agentes con $HOME apuntando a una carpeta desechable, de modo que secretos como ~/.ssh y ~/.aws estén fuera de su alcance.
- Desactive los indicadores de ejecución automática como –auto-exec, –auto-run, –auto-test y permisos de omisión peligrosa a menos que el trabajo realmente no pueda pausarse para un humano.
- No permita que los agentes ejecuten solicitudes de extracción desde bifurcaciones, el camino fácil desde el archivo de un atacante hasta sus secretos.
- Trate los archivos de configuración enviados dentro de un repositorio, como .aider.conf.yml, como código que no es de confianza; uno malicioso puede desencadenar el ataque en la primera edición aceptada.
GuardFall aterriza en medio de una serie de hallazgos similares este año. El propio adversario ConfianzaCaída presione Claude Code, Cursor, Gemini CLI y Copilot CLI, y un separado omisión de regla de denegación Pulsa Claude Code.
Ataques como AutoJack y Agentjacking convirtieron contenido envenenado en comandos que un agente ejecuta con los privilegios de su propietario. El hilo común es simple: el texto que no es de confianza sigue llegando a un shell real antes de que el guardia entienda qué se ejecutará realmente bash.





