¿Qué es el envenenamiento de datos de IA?

El envenenamiento de datos de IA es un intento deliberado de introducir sesgos en los datos de formación de un modelo de IA para que sus resultados sean sesgados.

Objetivos de aprendizaje

Después de leer este artículo podrás:

  • Explicar cómo funciona un ataque de envenenamiento de datos de IA
  • Describir los tipos de ataques de envenenamiento de datos de IA y LLM
  • Enumerar los métodos de prevención del envenenamiento de datos

Contenido relacionado


¿Quieres saber más?

Suscríbase a theNET, el resumen mensual de Cloudflare sobre las ideas más populares de Internet.

Revisa la política de privacidad de Cloudflare para saber más sobre cómo Cloudflare gestiona tus datos personales.

Copiar enlace del artículo

¿Qué es el envenenamiento de datos de IA?

El envenenamiento de datos de inteligencia artificial (IA) se produce cuando un atacante manipula los resultados de un modelo de IA o de aprendizaje automático cambiando sus datos de formación. El objetivo del atacante en un ataque de envenenamiento de datos de IA es conseguir que el modelo produzca resultados sesgados o peligrosos durante la inferencia.

Los modelos de IA y aprendizaje automático* tienen dos ingredientes principales: datos de formación y algoritmos. Pensemos en un algoritmo como si fuera el motor de un coche, y los datos de formación como si fueran la gasolina que le da al motor algo que quemar: los datos hacen funcionar un modelo de IA. Un ataque de envenenamiento de datos es como si alguien añadiera un ingrediente extra a la gasolina que hace que el coche funcione mal.

Las posibles consecuencias del envenenamiento de datos de IA se han agravado a medida que más empresas y usuarios empiezan a depender de la IA en sus actividades cotidianas. Un ataque exitoso de envenenamiento de datos de IA puede alterar permanentemente la salida de un modelo de una manera que favorezca a la persona detrás del ataque.

El envenenamiento de datos de IA es especialmente preocupante para los modelos de lenguaje de gran tamaño (LLM). El envenenamiento de datos figura en el Top 10 de OWASP para LLM, y en los últimos años los investigadores han advertido sobre vulnerabilidades del envenenamiento de datos que afectan a los modelos sanitarios, de generación de códigos y de generación de texto.

*"Aprendizaje automático" e "inteligencia artificial" se utilizan a veces indistintamente, aunque ambos términos se refieren a conjuntos ligeramente diferentes de capacidades informáticas. Sin embargo, sí es cierto que el aprendizaje automático es un tipo de IA.

¿Cómo funciona un ataque de envenenamiento de datos?

Los desarrolladores de IA utilizan grandes cantidades de datos para formar sus modelos. Básicamente, el conjunto de datos de formación proporciona a los modelos ejemplos, y los modelos aprenden a generalizar a partir de esos ejemplos. Cuantos más ejemplos haya en el conjunto de datos, más refinado y preciso será el modelo, siempre que los datos sean correctos y relativamente imparciales.

El envenenamiento de datos introduce un sesgo deliberado en el conjunto de datos de formación, cambiando el punto de partida de los algoritmos del modelo para que sus resultados sean diferentes a los previstos originalmente por sus desarrolladores.

Imagina que un profesor escribe un problema matemático en una pizarra para que lo resuelvan sus alumnos: por ejemplo, "47 * (18 + 5) = ?". La respuesta es 1081. Pero si un estudiante se cuela a sus espaldas y cambia "47" por "46", entonces la respuesta ya no es 1081, sino 1058. Los ataques de envenenamiento de datos son como ese estudiante pícaro: si los datos iniciales cambian ligeramente, la respuesta también cambia.

¿Cómo se producen los ataques de envenenamiento de datos de IA?

Las alteraciones no autorizadas de los datos de formación pueden proceder de varias fuentes.

Ataque interno: alguien con acceso legítimo a los datos de formación puede introducir sesgos, datos falsos u otras alteraciones que corrompan los resultados. Estos ataques son más difíciles de detectar y detener que los ataques de un tercero externo sin acceso autorizado a los datos.

Ataque a la cadena de suministro: la mayoría de los modelos de IA y aprendizaje automático dependen de conjuntos de datos de diversas fuentes para formar a sus modelos. Una o más de esas fuentes podrían contener datos "envenenados" que afecten a cualquier modelo que utilice esos datos para formar y ajustar modelos.

Acceso no autorizado: hay muchas formas en que un atacante podría acceder a un conjunto de datos de formación, desde el uso del movimiento lateral a través de un ataque previo, hasta la obtención de las credenciales de un desarrollador mediante el phishing, pasando por múltiples ataques potenciales intermedios.

¿Cuáles son las dos categorías principales de ataques de envenenamiento de datos?

  • Ataques directos (o dirigidos): estos ataques tienen como objetivo sesgar o alterar la salida de un modelo solo en respuesta a consultas o acciones concretas. Un ataque de este tipo dejaría un modelo inalterado, dando las respuestas esperadas a casi todas las consultas. Por ejemplo, un atacante podría querer engañar a un filtro de seguridad del correo electrónico basado en IA para que permita el paso de ciertas URL maliciosas, mientras que por lo demás funciona como se esperaba.
  • Ataques indirectos (o no dirigidos): estos ataques tienen como objetivo afectar al rendimiento de un modelo en general. Un ataque indirecto puede tener como objetivo simplemente ralentizar el rendimiento del modelo en su conjunto, o sesgarlo para que dé determinados tipos de respuestas. Un adversario extranjero, por ejemplo, podría querer sesgar los LLM de uso general para que proporcionen información errónea dentro de un país determinado con fines propagandísticos.

¿Cuáles son los tipos de ataques de envenenamiento de datos de IA?

Hay varias formas en que un atacante puede envenenar los datos de un modelo de IA para sus propios fines. Algunas de las técnicas más importantes que debes conocer son:

  • Envenenamiento de puerta trasera: este ataque introduce una vulnerabilidad oculta en el modelo para que, en respuesta a ciertos desencadenantes específicos conocidos por el atacante, se comporte de forma poco segura. El envenenamiento por puerta trasera es especialmente peligroso porque un modelo de IA con una puerta trasera oculta se comportará con normalidad en todos los casos.
  • Etiquetado incorrecto: un atacante puede cambiar la forma en que se etiquetan los datos dentro del conjunto de datos de formación de un modelo, lo que hace que el modelo identifique erróneamente los elementos después de haberlo formado.
  • Inyección y manipulación de datos: un ataque de este tipo altera, añade o elimina datos de un conjunto de datos. Estos ataques tienen como objetivo sesgar el modelo de IA en una determinada dirección.
  • Ataque de disponibilidad: este ataque tiene como objetivo ralentizar o bloquear el modelo mediante la inyección de datos que degradan el rendimiento general del mismo.

Cómo prevenir el envenenamiento de datos

Validación de datos: antes de la formación se deben analizar los conjuntos de datos para identificar datos maliciosos, sospechosos o atípicos.

Principio de mínimos privilegios: en otras palabras, solo aquellas personas y sistemas que sean absolutamente necesarios para acceder a los datos de formación deberían tenerlo. El principio de privilegio mínimo es un principio básico de un enfoque Zero Trust de la seguridad, que puede ayudar a evitar el movimiento lateral y el riesgo de credenciales.

Diversas fuentes de datos: la utilización de una gama más amplia de fuentes de datos puede ayudar a reducir el impacto del sesgo en un conjunto de datos determinado.

Supervisión y auditoría: el seguimiento y el registro de quién cambió los datos de formación, qué se cambió y cuándo se cambió permite a los desarrolladores identificar patrones sospechosos o rastrear la actividad de un atacante después de que el conjunto de datos haya sido envenenado.

Formación adversaria: implica formar un modelo de IA para que reconozca entradas intencionadamente engañosas.

También se pueden aplicar a los modelos de IA otras medidas de defensa de las aplicaciones, como los firewalls. Para evitar el envenenamiento de datos y otros ataques, Cloudflare ofrece Firewall for AI, que se puede implementar delante de los LLM para identificar y bloquear el abuso antes de que llegue a los mismos. Más información sobre Firewall for AI.