Los investigadores de ciberseguridad han descrito lo que dicen es una nueva clase de ataque que puede engañar a los agentes codificadores de inteligencia artificial (IA) para que ejecuten código arbitrario en las máquinas de los desarrolladores.
Llamado secuestro de agente Según Tenet Security, el ataque puede desencadenarse mediante un informe de error falso elaborado con Sentry, una plataforma de seguimiento de errores y monitoreo del rendimiento de código abierto.
«El ataque explota una falla arquitectónica crítica en la intersección de la ingestión de eventos de Sentry (que acepta cargas útiles arbitrarias de cualquier persona con el DSN) y el servidor Sentry MCP (que devuelve estos datos a los agentes de IA como salida confiable del sistema)», los investigadores de seguridad Ron Bobrov, Barak Sternberg y Nevo Poran dicho.
La idea es inyectar información diseñada en los eventos de error de Sentry, que luego son interpretados por agentes de codificación como Claude Code y Cursor como pasos legítimos de resolución de diagnóstico y ejecutan código controlado por el atacante.
Un ataque exitoso de este tipo puede exponer datos confidenciales, incluidas variables de entorno, credenciales de Git, URL de repositorios privados e identidades de desarrolladores, sin tener que depender de métodos como el phishing o el compromiso previo del servidor.
El problema tiene su origen en la confianza implícita asociada con la conexión a servicios externos mediante el Protocolo de contexto modelo (MCP). Debido a que un agente de IA no puede distinguir entre un evento de error generado por una falla real de una aplicación o inyectado por un atacante, crea una vía para la ejecución de código arbitrario cuando el agente procesa la respuesta.
La cadena de ataque ideada por Tenet es la siguiente:
- Un atacante encuentra el nombre de la fuente de datos Sentry de un objetivo (DSN), una credencial pública de solo escritura integrada en sitios web.
- El atacante envía un evento de error malicioso al punto final de ingesta de Sentry a través de una solicitud POST utilizando el DSN.
- El evento inyectado contiene «rebajas cuidadosamente formateadas» en el campo del mensaje y los nombres de las claves de contexto. Cuando el servidor Sentry MCP devuelve este evento a un agente de IA, se presenta como contenido estructurado visualmente idéntico a la plantilla del sistema Sentry.
- Cuando un desarrollador le pide a su agente de codificación de IA que «solucione problemas de Sentry no resueltos» (o un mensaje similar), el agente consulta a Sentry a través de MCP y recibe el evento malicioso.
- El agente ejecuta código malicioso, que se ejecuta con todos los privilegios del desarrollador.
«El atacante nunca toca la infraestructura de la víctima», explicaron los investigadores. «La instrucción maliciosa llega disfrazada de una 'Resolución' legítima dentro de un error ordinario. Cuando un desarrollador le pide a su agente de IA que solucione el problema de Sentry, el agente lee el comando del atacante como una guía confiable y lo ejecuta, con los propios privilegios del desarrollador, en la propia máquina del desarrollador».
Agentjacking se destaca porque se dirige al agente de IA en el que confía un desarrollador y utiliza un Sentry DSN como punto de partida. Además, la inyección de rebajas se realiza de tal manera que el agente no puede distinguirla de la guía legítima de Sentry.
La compañía de ciberseguridad de IA dijo que encontró al menos 2.388 organizaciones expuestas con DSN inyectables válidos y que probó el ataque de manera controlada contra más de 100 organizaciones, logrando una tasa de éxito de explotación del 85% contra errores inyectados en algunos de los asistentes de codificación de IA más utilizados.
Sentry, por su parte, reconoció el problema, pero optó por no solucionarlo, afirmando que «técnicamente no es defendible». Sin embargo, se dice que la compañía activó un filtro de contenido global que bloquea una «cadena de carga útil específica».
«A medida que las empresas se apresuran a implementar agentes de codificación de IA, esta investigación demuestra que los propios agentes ahora son la superficie de ataque, vueltos contra los desarrolladores que confían en ellos, utilizando nada más que datos que esas organizaciones publican sobre sí mismas», dijo Tenet. «El ataque evita EDR, WAF, IAM, VPN, Cloudflare y firewalls, porque no hay nada malicioso que detectar. Cada acción en la cadena está autorizada».




