Las alucinaciones de la IA están introduciendo graves riesgos de seguridad en la toma de decisiones sobre infraestructura crítica al explotar la confianza humana a través de resultados muy seguros pero incorrectos. Cuando un modelo de IA carece de certeza, no tiene un mecanismo para reconocerlo. En cambio, genera la respuesta más probable basada en patrones en sus datos de entrenamiento, incluso si esa respuesta es inexacta. Estos resultados pueden parecer autorizados, lo que los hace especialmente peligrosos a la hora de impulsar decisiones de seguridad en el mundo real.
Residencia en Punto de referencia AA-Omniciencia de Artificial Analysisuna evaluación realizada en 2025 de 40 modelos de IA encontró que todos menos cuatro modelos probados tenían más probabilidades de proporcionar una respuesta incorrecta y segura que una respuesta correcta a preguntas difíciles. A medida que la IA adquiere un papel más importante en las operaciones de ciberseguridad, las organizaciones deben tratar cada respuesta generada por la IA como una vulnerabilidad potencial hasta que un humano la haya verificado.
¿Qué son las alucinaciones de la IA?
Las alucinaciones de la IA se presentan con confianza, son resultados que suenan plausibles pero que en realidad son inexactos. Los modelos de lenguaje base no recuperan información verificada; construyen respuestas prediciendo palabras y frases a partir de patrones aprendidos en sus datos de entrenamiento. Dado que sus respuestas son estadísticamente probables pero no necesariamente ciertas, los resultados de las alucinaciones pueden parecerse mucho a información precisa. Si bien alucinan, los modelos de IA pueden citar fuentes inexistentes, hacer referencia a investigaciones que nunca se realizaron o presentar datos fabricados con la misma convicción que la información confiable.
Para las organizaciones, el principal problema que rodea a las alucinaciones de la IA no es sólo la inexactitud sino también la confianza fuera de lugar. Cuando un resultado de IA parece ser la verdad absoluta, los empleados pueden asumir que es correcto y actuar en consecuencia sin verificación. En entornos de ciberseguridad, los resultados incorrectos de la IA plantean importantes riesgos de seguridad porque no solo informan decisiones clave, sino que también alimentan directamente sistemas automatizados que pueden desencadenar acciones operativas. Los resultados pueden incluir interrupciones del sistema, pérdidas financieras y la introducción de nuevas vulnerabilidades.
¿Qué causa las alucinaciones por IA?
El primer paso para mitigar el impacto de las alucinaciones de la IA es comprender cómo se forman. Estos son los diversos factores que pueden contribuir a las alucinaciones de IA:
- Datos de entrenamiento defectuosos: Los modelos de IA aprenden de los datos con los que se entrenan. Si esos datos contienen información desactualizada o errores absolutos, el modelo incorporará esos defectos en sus resultados. No señalará las discrepancias; aprenderá de ellos.
- Sesgo en los datos de entrada: La representación excesiva de ciertos patrones o escenarios puede hacer que un modelo de IA trate esos patrones como universalmente aplicables, incluso cuando el contexto difiere.
- Falta de validación de respuesta: Los modelos de lenguaje base no están diseñados para verificar la exactitud de los hechos. Se optimizan para obtener resultados coherentes y plausibles. Si bien algunos sistemas agregan capas de recuperación o conexión a tierra para reducir este riesgo, el proceso de generación central sigue siendo vulnerable a las alucinaciones.
- Ambigüedad inmediata: Los datos vagos aumentan la probabilidad de que los modelos de IA llenen los vacíos con suposiciones, lo que aumenta el riesgo de resultados incorrectos y alucinaciones.
Tres formas en que las alucinaciones de la IA están afectando la ciberseguridad
No todas las alucinaciones de la IA tienen el mismo impacto, pero la información incorrecta o fabricada puede dejar a las organizaciones vulnerables a amenazas cibernéticas graves. Las tres formas principales en que se manifiestan las alucinaciones de la IA son las amenazas perdidas, las amenazas fabricadas y las soluciones incorrectas.
1. Amenazas perdidas
La detección de amenazas por IA a menudo se basa en la identificación de patrones y anomalías basadas en datos históricos y comportamientos aprendidos. Cuando un ciberataque se alinea con comportamientos conocidos, el modelo de IA funciona bien; pero cuando no es así, el modelo no tiene nada con qué compararlo, por lo que la amenaza puede pasar desapercibida. Esto es especialmente problemático para técnicas de ataque subrepresentadas y ataques de día ceroque explotan vulnerabilidades desconocidas para el proveedor y, por lo tanto, no están parcheadas. Debido a que estas amenazas no se reflejan en los datos de entrenamiento, el modelo de IA carece de contexto suficiente para señalarlas, lo que resulta en una mayor probabilidad de vulnerabilidades no detectadas y una mayor exposición dentro del entorno.
2. Amenazas inventadas
A diferencia de las amenazas pasadas por alto, los modelos de IA también pueden generar falsos positivos al clasificar erróneamente la actividad normal como maliciosa, alertando a los equipos sobre amenazas que no existen. Por ejemplo, el tráfico normal de la red puede malinterpretarse como sospechoso, lo que desencadena alertas que provocan acciones innecesarias de respuesta a incidentes. Estas falsas alarmas pueden provocar cierres del sistema, desperdicio de recursos y operaciones interrumpidas por amenazas inventadas. Con el tiempo, los falsos positivos repetidos pueden provocar fatiga en las alertas, lo que hace que los equipos de seguridad se vuelvan insensibles a todas las advertencias. Esto aumenta el riesgo de que se pasen por alto amenazas legítimas en entornos donde los equipos han sido condicionados a desconfiar de las alertas.
3. Remediación incorrecta
Esta es una de las formas más peligrosas de alucinación por IA desde que ocurre. después La confianza ya se ha establecido. Por ejemplo, un sistema de inteligencia artificial puede recomendar con confianza eliminar archivos confidenciales, modificar las configuraciones del sistema o deshabilitar las reglas del firewall. Si estas acciones se ejecutan, particularmente a través de cuentas privilegiadas, pueden dejar a las organizaciones expuestas a ataques basados en identidad, movimientos laterales o pérdidas irreversibles de datos. Incluso cuando la detección de amenazas por IA es precisa, una guía alucinante puede convertir un incidente de seguridad contenido en una violación más amplia.
Cómo las organizaciones pueden reducir los riesgos de alucinaciones de la IA
Aunque las alucinaciones de la IA no se pueden eliminar por completo, su impacto se puede reducir significativamente mediante los siguientes controles y medidas de gobernanza.
Requerir revisión humana antes de actuar
Los resultados generados por la IA no deberían desencadenar acciones sensibles o privilegiadas sin una verificación humana primero. Esto es especialmente importante para flujos de trabajo que implican cambios de infraestructura, actualizaciones de acceso o respuesta a incidentes. El requisito de revisión no sólo debe aplicarse cuando algo parece estar mal; Los modelos pueden parecer igualmente seguros tanto si tienen razón como si no.
Trate los datos de entrenamiento como un activo de seguridad
Las alucinaciones de la IA a menudo se remontan a datos de entrenamiento. Auditar periódicamente los datos utilizados para entrenar o poner en tierra los sistemas de IA mediante la eliminación de registros obsoletos, conjuntos de datos sesgados e información inexacta reduce la probabilidad de que esas fallas aparezcan en los resultados. A medida que el contenido generado por IA se vuelve más común en línea, existe un mayor riesgo de que los modelos futuros se entrenen con información fabricada producida por modelos anteriores, en un fenómeno al que a veces se hace referencia como colapso del modelo. Sin una gobernanza continua de los datos, el riesgo de resultados defectuosos de la IA no hace más que aumentar.
Hacer cumplir el acceso con privilegios mínimos para los sistemas de IA
A los sistemas impulsados por IA solo se les deben otorgar los permisos que necesitan para realizar sus tareas. Esto puede parecer un sistema de inteligencia artificial al que sólo se le permite leer archivos, no eliminarlos, incluso si una recomendación alucinada se lo dice. Al restringir el acceso con privilegios mínimos, las organizaciones garantizan que incluso si un sistema de IA genera una guía incorrecta, no puede ejecutar acciones más allá de lo que está permitido.
Invierta en una rápida formación en ingeniería
Los resultados de la IA están determinados en gran medida por la calidad de la entrada, por lo que un mensaje vago le da al modelo más oportunidades de llenar los vacíos con suposiciones incorrectas, lo que aumenta el riesgo de alucinaciones. Las organizaciones deben priorizar la capacitación de los empleados, especialmente aquellos que interactúan directamente con los sistemas de inteligencia artificial, sobre cómo escribir indicaciones específicas que impulsen el modelo para producir resultados verificables. Los empleados que entienden que los resultados de la IA siempre deben validarse antes de su uso tienen menos probabilidades de interpretar que el sistema de IA tiene autoridad por defecto.
Colocar la seguridad de la identidad en el centro de la gobernanza de la IA
Las alucinaciones de la IA se convierten en verdaderos riesgos para la seguridad cuando conducen a la acción, lo que no es principalmente un problema de modelo sino más bien un problema de acceso. Los incidentes de seguridad surgen cuando los sistemas de inteligencia artificial tienen suficiente acceso para actuar según una guía incorrecta, o cuando un humano confía en los resultados sin verificación. guardián® está diseñado para brindar a las organizaciones la visibilidad y los controles de acceso necesarios para evitar el acceso no autorizado, incluso cuando las decisiones impulsadas por la IA son incorrectas. Al imponer el acceso con privilegios mínimos, monitorear la actividad privilegiada y proteger las identidades humanas y no humanas (NHI), las organizaciones pueden reducir el riesgo de que las alucinaciones de la IA se conviertan en incidentes de seguridad dañinos.
Nota: Este artículo fue escrito cuidadosamente y contribuido para nuestra audiencia por Ashley D'Andrea, redactora de contenido de Keeper Security.


