¿Qué es el envenenamiento de datos en IA?

El envenenamiento de datos en IA es un intento deliberado de introducir sesgos en los datos de entrenamiento de un modelo de IA para que sus resultados sean sesgados.

Metas de aprendizaje

Después de leer este artículo podrás:

  • Explicar cómo funciona un ataque de envenenamiento de datos en IA
  • Describir los tipos de ataques de envenenamiento de datos en IA y LLM
  • Enumerar los métodos de prevención del envenenamiento de datos

Contenido relacionado


¿Quieres saber más?

Suscríbete a theNET, el resumen mensual de Cloudflare sobre las ideas más populares de Internet.

Revisa la política de privacidad de Cloudflare para saber más sobre cómo Cloudflare gestiona tus datos personales.

Copiar el enlace del artículo

¿Qué es el envenenamiento de datos en IA?

El envenenamiento de datos en inteligencia artificial (IA) se produce cuando un atacante manipula los resultados de la IA o un modelo de aprendizaje automático cambiando sus datos de entrenamiento. En un ataque de envenenamiento de datos en IA, el objetivo es conseguir que el modelo genere resultados sesgados o peligrosos durante la inferencia.

Los modelos de IA y aprendizaje automático* tienen dos elementos principales: datos de entrenamiento y algoritmos. Podemos comparar un algoritmo con el motor de un automóvil y el entrenamiento de datos con la gasolina que da al motor material para combustión: los datos hacen funcionar un modelo de IA. Un ataque de envenenamiento de datos es como si alguien agregara un elemento adicional a la gasolina que hace que el automóvil funcione mal.

Las posibles consecuencias del envenenamiento de datos en IA se agravan a medida que más empresas y personas comienzan a confiar en la IA en sus actividades diarias. Un ataque exitoso de envenenamiento de datos en IA puede alterar de manera permanente los resultados de un modelo de manera que favorezca al atacante.

El envenenamiento de datos en IA es especialmente preocupante para los modelos lingüísticos de gran tamaño (LLM). El envenenamiento de datos figura en el Top 10 de OWASP para LLM, y en los últimos años los investigadores han advertido sobre las vulnerabilidades del envenenamiento de datos que afectan a los modelos de atención médica, generación de código y generación de texto.

*"Aprendizaje automático" e "inteligencia artificial" suelen usarse de manera indistinta, aunque los dos términos se refieren a conjuntos ligeramente diferentes de capacidades informáticas. Sin embargo, el aprendizaje automático es un tipo de IA.

¿Cómo funciona un ataque de envenenamiento de datos?

Los desarrolladores de IA utilizan grandes cantidades de datos para entrenar sus modelos. Básicamente, el conjunto de datos de entrenamiento ofrece ejemplos a los modelos, y los modelos aprenden a generalizar a partir de esos ejemplos. Cuantos más ejemplos haya en el conjunto de datos, más refinado y preciso se vuelve el modelo, siempre que los datos sean correctos y relativamente imparciales.

El envenenamiento de datos introduce un sesgo a propósito en el conjunto de datos de entrenamiento, y cambia el punto de partida de los algoritmos del modelo para que sus resultados sean diferentes a los que sus desarrolladores pretendían originalmente.

Imagina que un profesor escribe un problema de matemáticas en una pizarra para que sus alumnos lo resuelvan: por ejemplo, "47 * (18 + 5) = ?" La respuesta es 1081. Pero si un estudiante a sus espaldas cambia "47" por "46", la respuesta ya no es 1081, sino 1058. Los ataques de envenenamiento de datos son como ese estudiante tramposo: si los datos iniciales cambian ligeramente, la respuesta también cambia.

¿Cómo se producen los ataques de envenenamiento de datos en IA?

Las alteraciones no autorizadas de los datos de entrenamiento pueden proceder de varias fuentes.

Ataque interno: alguien con acceso legítimo a los datos de entrenamiento puede introducir sesgos, datos falsos u otras alteraciones que corrompan los resultados. Estos ataques son más difíciles de detectar y detener que los ataques de un tercero externo sin acceso autorizado a los datos.

Ataque de la cadena de suministro: la mayoría de los modelos de IA y aprendizaje automático dependen de conjuntos de datos de diversas fuentes para entrenar sus modelos. Una o más de esas fuentes podrían contener datos "envenenados" que pueden afectar a cualquier modelo que utilice esos datos para entrenar y configurar modelos.

Acceso no autorizado: un atacante podría obtener acceso a un conjunto de datos de entrenamiento de varias maneras, desde el uso del movimiento lateral mediante un compromiso previo, hasta la obtención de las credenciales de un desarrollador mediante phishing, pasando por múltiples ataques potenciales en el medio.

¿Cuáles son las dos categorías principales de un ataque de envenenamiento de datos?

  • Ataques directos (o dirigidos): estos ataques tienen como objetivo sesgar o alterar los resultados de un modelo solo en respuesta a consultas o acciones específicas. Un ataque de este tipo dejaría un modelo casi inalterado, dando las respuestas esperadas a casi todas las consultas. Por ejemplo, un atacante podría querer engañar a un filtro de seguridad de correo electrónico basado en IA para que permita el paso de ciertas URL maliciosas, mientras que para lo demás funciona como se esperaba.
  • Ataques indirectos (o no dirigidos): estos ataques tienen como objetivo afectar el rendimiento de un modelo en general. Un ataque indirecto puede tener como objetivo simplemente ralentizar el rendimiento del modelo en general, o sesgarlo para que dé determinados tipos de respuestas. Un adversario extranjero, por ejemplo, podría querer sesgar los LLM de uso general para que brinden información errónea en un país en particular con fines propagandísticos.

¿Cuáles son los tipos de ataques de envenenamiento de datos de IA?

Hay varias formas en que un atacante puede envenenar los datos de un modelo de IA para sus propios fines. Estas son algunas de las técnicas más importantes que hay que conocer:

  • Envenenamiento de puerta trasera: este ataque introduce una vulnerabilidad oculta en el modelo para que, en respuesta a ciertos desencadenantes específicos conocidos por el atacante, se comporte de forma insegura. El envenenamiento por puerta trasera es especialmente peligroso, ya que un modelo de IA con una puerta trasera oculta de otro modo se comportará con normalidad.
  • Etiquetado incorrecto: un atacante puede cambiar la forma en que se etiquetan los datos dentro del conjunto de datos de entrenamiento de un modelo, lo que hace que el modelo identifique erróneamente los elementos después de haber sido entrenado.
  • Inyección y manipulación de datos: un ataque de este tipo altera, agrega o elimina datos de un conjunto de datos. Estos ataques tienen como objetivo sesgar el modelo de IA en una determinada dirección.
  • Ataque de disponibilidad: este ataque tiene como objetivo ralentizar o bloquear el modelo mediante la inyección de datos que degradan el rendimiento general.

Cómo prevenir el envenenamiento de datos

Validación de datos: antes del entrenamiento, se deben analizar los conjuntos de datos para identificar datos maliciosos, sospechosos o atípicos.

Principio de privilegio mínimo: en otras palabras, solo aquellas personas y sistemas que sean absolutamente necesarios pueden acceder a los datos de entrenamiento. El principio de privilegio mínimo es un principio fundamental de un enfoque de seguridad Zero Trust, que ayuda a evitar el movimiento lateral y el riesgo de credenciales.

Diversas fuentes de datos: recurrir a una variedad más amplia de fuentes de datos ayuda a reducir el impacto del sesgo en un conjunto de datos determinado.

Supervisión y auditoría: el seguimiento y el registro de quién cambió los datos de entrenamiento, qué se modificó y cuándo se modificó permite a los desarrolladores identificar patrones sospechosos o rastrear la actividad de un atacante después de que el conjunto de datos haya sido envenenado.

Entrenamiento adversario: implica entrenar un modelo de IA para que reconozca entradas intencionalmente engañosas.

Otras medidas de protección de aplicaciones, como los firewalls, también se pueden aplicar a los modelos de IA. Para evitar el envenenamiento de datos y otros ataques, Cloudflare ofrece Firewall for AI, que se puede implementar frente a los LLM para identificar y bloquear el abuso antes de que llegue a ellos. Más información sobre Firewall for AI.