Anthropic dijo el lunes que identificó «campañas a escala industrial» montadas por tres empresas de inteligencia artificial (IA), DeepSeek, Moonshot AI y MiniMax, para extraer ilegalmente las capacidades de Claude para mejorar sus propios modelos.
Los ataques de destilación generaron más de 16 millones de intercambios con su modelo de lenguaje grande (LLM) a través de alrededor de 24.000 cuentas fraudulentas en violación de sus términos de servicio y restricciones de acceso regional. Las tres empresas tienen su sede en China, donde el uso de sus servicios está prohibido El uso de sus servicios está prohibido debido a «riesgos legales, regulatorios y de seguridad».
La destilación se refiere a una técnica en la que un modelo menos capaz se entrena con los resultados generados por un sistema de IA más potente. Si bien la destilación es una forma legítima para que las empresas produzcan versiones más pequeñas y más baratas de sus propios modelos fronterizos, es ilegal que los competidores la aprovechen para adquirir dichas capacidades de otras empresas de IA en una fracción del tiempo y el costo que les llevaría si las desarrollaran por su cuenta.
«Los modelos elaborados ilícitamente carecen de las salvaguardias necesarias, lo que crea importantes riesgos para la seguridad nacional», Anthropic dicho. «Es poco probable que los modelos construidos mediante destilación ilícita conserven esas salvaguardas, lo que significa que pueden proliferar capacidades peligrosas con muchas protecciones eliminadas por completo».
Las empresas extranjeras de IA que destilan modelos estadounidenses pueden convertir en armas estas capacidades desprotegidas para facilitar actividades maliciosas, relacionadas o no con la cibernética, sirviendo así como base para sistemas militares, de inteligencia y de vigilancia que los gobiernos autoritarios pueden desplegar para operaciones cibernéticas ofensivas, campañas de desinformación y vigilancia masiva.
Las campañas detalladas por AI advenedizo implican el uso de cuentas fraudulentas y servicios de proxy comerciales para acceder a Claude a escala y evitar la detección. Anthropic dijo que podía atribuir cada campaña a un laboratorio de inteligencia artificial específico en función de los metadatos de la solicitud, la correlación de direcciones IP, los metadatos de la solicitud y los indicadores de infraestructura.
Los detalles de los tres ataques de destilación se encuentran a continuación:
- DeepSeek, que se centró en las capacidades de razonamiento de Claude y en las tareas de calificación basadas en rúbricas, y buscó su ayuda para generar alternativas seguras para la censura a consultas políticamente sensibles, como preguntas sobre disidentes, líderes de partidos o autoritarismo, en más de 150.000 intercambios.
- Moonshot AI, que se centró en el razonamiento agente y el uso de herramientas, las capacidades de codificación, el desarrollo de agentes de uso informático y la visión por computadora de Claude en más de 3,4 millones de intercambios.
- MiniMax, que se centró en las capacidades de uso de herramientas y codificación agente de Claude en más de 13 millones de intercambios.
«El volumen, la estructura y el enfoque de las indicaciones eran distintos de los patrones de uso normales, reflejando una extracción deliberada de capacidades en lugar de un uso legítimo», añadió Anthropic. «Cada campaña se centró en las capacidades más diferenciadas de Claude: razonamiento agente, uso de herramientas y codificación».
La compañía también señaló que los ataques se basaron en servicios de proxy comerciales que revenden el acceso a Claude y otros modelos de inteligencia artificial fronterizos a escala. Estos servicios funcionan con arquitecturas de «clúster hidra» que contienen redes masivas de cuentas fraudulentas para distribuir el tráfico a través de su API.
Luego, el acceso se utiliza para generar grandes volúmenes de indicaciones cuidadosamente elaboradas que están diseñadas para extraer capacidades específicas del modelo con el fin de entrenar sus propios modelos mediante la recopilación de respuestas de alta calidad.
«La amplitud de estas redes significa que no hay puntos únicos de falla», dijo Anthropic. «Cuando se prohíbe una cuenta, una nueva ocupa su lugar. En un caso, una única red proxy gestionó más de 20.000 cuentas fraudulentas simultáneamente, mezclando tráfico destilado con solicitudes de clientes no relacionadas para dificultar la detección».
Para contrarrestar la amenaza, Anthropic dijo que ha creado varios clasificadores y sistemas de huellas dactilares de comportamiento para identificar patrones sospechosos de ataques de destilación en el tráfico API, ha fortalecido la verificación de cuentas educativas, programas de investigación de seguridad y organizaciones emergentes, e implementado salvaguardas mejoradas para reducir la eficacia de los resultados del modelo para la destilación ilícita.
La divulgación se produce semanas después de que Google Threat Intelligence Group (GTIG) revelara que identificó e interrumpió ataques de destilación y extracción de modelos dirigidos a las capacidades de razonamiento de Gemini a través de más de 100.000 mensajes.
«Los ataques de extracción y destilación de modelos no suelen representar un riesgo para los usuarios promedio, ya que no amenazan la confidencialidad, disponibilidad o integridad de los servicios de inteligencia artificial», dijo Google a principios de este mes. «Por el contrario, el riesgo se concentra entre los desarrolladores de modelos y los proveedores de servicios».




