What is AI data poisoning?

AI data poisoning is a deliberate attempt to bias an AI model’s training data so that it produces dangerous or inaccurate results. Someone might, for example, alter an AI model's data so that it lies to or tricks its users. AI data poisoning is of particular concern for large language models (LLMs), so it is important for AI developers to carefully safeguard and vet their training data.

How does data poisoning affect AI models?

By introducing slight changes to training data, an attacker can significantly alter an AI model’s outputs — just as a math problem will lead to a different answer if the initial values change (e.g. "3 + 3 = 6" vs. "3 + 4 = 7"). A data-poisoned model will therefore perform differently from how its developers and users expect, and possibly give responses that benefit the attacker or put users at risk.

What are the main types of AI data poisoning attacks?

The primary data poisoning attack methods include backdoor poisoning, mislabeling, data injection, data manipulation, and availability attacks. Each type of data poisoning attack aims to bias or degrade AI model performance.

What are common attack vectors for AI data poisoning?

Attackers may use insider access, supply chain attacks via tainted external data, or unauthorized access to manipulate or corrupt training datasets.

What are the potential consequences of data poisoning?

Data poisoning can permanently alter a model’s output to favor the attacker. It can cause a model to produce propaganda or hate speech, make inaccurate recommendations, provide false data, or promote malware downloads.

What are some ways to prevent AI data poisoning?

To prevent AI data poisoning, protecting collections of training data from unauthorized alteration is crucial. Prevention methods include data validation, applying the principle of least privilege, using diverse data sources, monitoring and auditing data changes, and using adversarial training to get models to recognize misleading inputs.

¿Qué es el envenenamiento de datos en IA?

El envenenamiento de datos en IA es un intento deliberado de introducir sesgos en los datos de entrenamiento de un modelo de IA para que sus resultados sean sesgados.

Metas de aprendizaje

Después de leer este artículo podrás:

Explicar cómo funciona un ataque de envenenamiento de datos en IA
Describir los tipos de ataques de envenenamiento de datos en IA y LLM
Enumerar los métodos de prevención del envenenamiento de datos

Contenido relacionado

¿Qué es inteligencia artificial (IA)?

¿Qué es el aprendizaje automático?

¿Qué es un LLM?

Inferencia frente a formación de la IA

Principales 10 según OWASP para LLM

¿Quieres saber más?

Suscríbete a theNET, el resumen mensual de Cloudflare sobre las ideas más populares de Internet.

Copiar el enlace del artículo

Resumen del artículo:

El envenenamiento de datos consiste en inyectar información maliciosa en conjuntos de datos de entrenamiento para manipular el comportamiento de un modelo de IA, comprometiendo su precisión, fiabilidad y la integridad general de los resultados del aprendizaje automático.
Los atacantes utilizan el envenenamiento de datos de IA para crear puertas traseras o sesgar los resultados, lo que les permite eludir los filtros de seguridad o hacer que el sistema realice predicciones específicas e incorrectas.
La protección contra el envenenamiento de datos requiere la depuración rigurosa de los datos, la verificación de las fuentes de entrenamiento y la implementación de mecanismos de monitorización continua para detectar y neutralizar las entradas malintencionadas antes de que corrompan el modelo.

¿Qué es el envenenamiento de datos en IA?

El envenenamiento de datos en inteligencia artificial (IA) se produce cuando un atacante manipula los resultados de la IA o un modelo de aprendizaje automático cambiando sus datos de entrenamiento. En un ataque de envenenamiento de datos en IA, el objetivo es conseguir que el modelo genere resultados sesgados o peligrosos durante la inferencia.

Los modelos de IA y aprendizaje automático* tienen dos elementos principales: datos de entrenamiento y algoritmos. Podemos comparar un algoritmo con el motor de un automóvil y el entrenamiento de datos con la gasolina que da al motor material para combustión: los datos hacen funcionar un modelo de IA. Un ataque de envenenamiento de datos es como si alguien agregara un elemento adicional a la gasolina que hace que el automóvil funcione mal.

Las posibles consecuencias del envenenamiento de datos en IA se agravan a medida que más empresas y personas comienzan a confiar en la IA en sus actividades diarias. Un ataque exitoso de envenenamiento de datos en IA puede alterar de manera permanente los resultados de un modelo de manera que favorezca al atacante.

El envenenamiento de datos en IA es especialmente preocupante para los modelos lingüísticos de gran tamaño (LLM). El envenenamiento de datos figura en el Top 10 de OWASP para LLM, y en los últimos años los investigadores han advertido sobre las vulnerabilidades del envenenamiento de datos que afectan a los modelos de atención médica, generación de código y generación de texto.

*"Aprendizaje automático" e "inteligencia artificial" suelen usarse de manera indistinta, aunque los dos términos se refieren a conjuntos ligeramente diferentes de capacidades informáticas. Sin embargo, el aprendizaje automático es un tipo de IA.

¿Cómo funciona un ataque de envenenamiento de datos?

Los desarrolladores de IA utilizan grandes cantidades de datos para entrenar sus modelos. Básicamente, el conjunto de datos de entrenamiento ofrece ejemplos a los modelos, y los modelos aprenden a generalizar a partir de esos ejemplos. Cuantos más ejemplos haya en el conjunto de datos, más refinado y preciso se vuelve el modelo, siempre que los datos sean correctos y relativamente imparciales.

El envenenamiento de datos introduce un sesgo a propósito en el conjunto de datos de entrenamiento, y cambia el punto de partida de los algoritmos del modelo para que sus resultados sean diferentes a los que sus desarrolladores pretendían originalmente.

Imagina que un profesor escribe un problema de matemáticas en una pizarra para que sus alumnos lo resuelvan: por ejemplo, "47 * (18 + 5) = ?" La respuesta es 1081. Pero si un estudiante a sus espaldas cambia "47" por "46", la respuesta ya no es 1081, sino 1058. Los ataques de envenenamiento de datos son como ese estudiante tramposo: si los datos iniciales cambian ligeramente, la respuesta también cambia.

¿Cómo se producen los ataques de envenenamiento de datos en IA?

Las alteraciones no autorizadas de los datos de entrenamiento pueden proceder de varias fuentes.

Ataque interno: alguien con acceso legítimo a los datos de entrenamiento puede introducir sesgos, datos falsos u otras alteraciones que corrompan los resultados. Estos ataques son más difíciles de detectar y detener que los ataques de un tercero externo sin acceso autorizado a los datos.

Ataque de la cadena de suministro: la mayoría de los modelos de IA y aprendizaje automático dependen de conjuntos de datos de diversas fuentes para entrenar sus modelos. Una o más de esas fuentes podrían contener datos "envenenados" que pueden afectar a cualquier modelo que utilice esos datos para entrenar y configurar modelos.

Acceso no autorizado: un atacante podría obtener acceso a un conjunto de datos de entrenamiento de varias maneras, desde el uso del movimiento lateral mediante un compromiso previo, hasta la obtención de las credenciales de un desarrollador mediante phishing, pasando por múltiples ataques potenciales en el medio.

¿Cuáles son las dos categorías principales de un ataque de envenenamiento de datos?

Ataques directos (o dirigidos): estos ataques tienen como objetivo sesgar o alterar los resultados de un modelo solo en respuesta a consultas o acciones específicas. Un ataque de este tipo dejaría un modelo casi inalterado, dando las respuestas esperadas a casi todas las consultas. Por ejemplo, un atacante podría querer engañar a un filtro de seguridad de correo electrónico basado en IA para que permita el paso de ciertas URL maliciosas, mientras que para lo demás funciona como se esperaba.
Ataques indirectos (o no dirigidos): estos ataques tienen como objetivo afectar el rendimiento de un modelo en general. Un ataque indirecto puede tener como objetivo simplemente ralentizar el rendimiento del modelo en general, o sesgarlo para que dé determinados tipos de respuestas. Un adversario extranjero, por ejemplo, podría querer sesgar los LLM de uso general para que brinden información errónea en un país en particular con fines propagandísticos.

¿Cuáles son los tipos de ataques de envenenamiento de datos de IA?

Hay varias formas en que un atacante puede envenenar los datos de un modelo de IA para sus propios fines. Estas son algunas de las técnicas más importantes que hay que conocer:

Envenenamiento de puerta trasera: este ataque introduce una vulnerabilidad oculta en el modelo para que, en respuesta a ciertos desencadenantes específicos conocidos por el atacante, se comporte de forma insegura. El envenenamiento por puerta trasera es especialmente peligroso, ya que un modelo de IA con una puerta trasera oculta de otro modo se comportará con normalidad.
Etiquetado incorrecto: un atacante puede cambiar la forma en que se etiquetan los datos dentro del conjunto de datos de entrenamiento de un modelo, lo que hace que el modelo identifique erróneamente los elementos después de haber sido entrenado.
Inyección y manipulación de datos: un ataque de este tipo altera, agrega o elimina datos de un conjunto de datos. Estos ataques tienen como objetivo sesgar el modelo de IA en una determinada dirección.
Ataque de disponibilidad: este ataque tiene como objetivo ralentizar o bloquear el modelo mediante la inyección de datos que degradan el rendimiento general.

Cómo prevenir el envenenamiento de datos

Validación de datos: antes del entrenamiento, se deben analizar los conjuntos de datos para identificar datos maliciosos, sospechosos o atípicos.

Principio de privilegio mínimo: en otras palabras, solo aquellas personas y sistemas que sean absolutamente necesarios pueden acceder a los datos de entrenamiento. El principio de privilegio mínimo es fundamental para un enfoque de seguridad Zero Trust, lo que ayuda a evitar el movimiento lateral y el riesgo de credenciales.

Diversas fuentes de datos: recurrir a una variedad más amplia de fuentes de datos ayuda a reducir el impacto del sesgo en un conjunto de datos determinado.

Supervisión y auditoría: el seguimiento y el registro de quién cambió los datos de entrenamiento, qué se modificó y cuándo se modificó permite a los desarrolladores identificar patrones sospechosos o rastrear la actividad de un atacante después de que el conjunto de datos haya sido envenenado.

Entrenamiento adversario: implica entrenar un modelo de IA para que reconozca entradas intencionalmente engañosas.

Otras medidas de protección de aplicaciones, como los firewalls, también se pueden aplicar a los modelos de IA. Para evitar el envenenamiento de datos y otros ataques, Cloudflare ofrece AI Security for Apps, que se puede implementar frente a los LLM para identificar y bloquear el abuso antes de que llegue a ellos. Más información sobre AI Security for Apps.

Preguntas frecuentes

¿Qué es el envenenamiento de datos en IA?

El envenenamiento de datos de IA es un intento deliberado de introducir sesgos en los datos de entrenamiento de un modelo de IA para que genere resultados peligrosos o inexactos. Alguien podría, por ejemplo, modificar los datos de un modelo de IA para que mienta o engañe a sus usuarios. El envenenamiento de datos de IA es de particular preocupación para los modelos de lenguaje de gran tamaño (LLM), por lo que es importante que los desarrolladores de IA protejan y revisen cuidadosamente sus datos de entrenamiento.

¿Cómo afecta el envenenamiento de datos a los modelos de IA?

Al introducir cambios ligeros en los datos de entrenamiento, un atacante puede alterar significativamente los resultados de un modelo de IA, al igual que un problema matemático dará una respuesta diferente si los valores iniciales cambian (p. ej. "3 + 3 = 6" vs. "3 + 4 = 7"). Por lo tanto, un modelo de datos envenenado funcionará de manera diferente a lo que esperan sus desarrolladores y usuarios, y posiblemente dará respuestas que beneficien al atacante o pongan en riesgo a los usuarios.

¿Cuáles son los principales tipos de ataques de envenenamiento de datos de IA?

Los métodos principales de ataque de envenenamiento de datos incluyen el envenenamiento por puerta trasera, el etiquetado incorrecto, la inyección de datos, la manipulación de datos y los ataques de disponibilidad. Cada tipo de ataque de envenenamiento de datos busca sesgar o reducir el rendimiento del modelo de IA.

¿Cuáles son los vectores de ataque más comunes para el envenenamiento de datos de IA?

Los atacantes pueden utilizar el acceso interno, los ataques a la cadena de suministro mediante datos externos contaminados, o el acceso no autorizado para manipular o corromper los conjuntos de datos de entrenamiento.

¿Cuáles son las posibles consecuencias del envenenamiento de datos?

El envenenamiento de datos puede alterar de forma permanente el resultado de un modelo para favorecer al atacante. Puede hacer que un modelo produzca propaganda o discursos de odio, haga recomendaciones inexactas, proporcione datos falsos o promueva descargas de malware.

¿Cuáles son algunas formas de prevenir el envenenamiento de datos de IA?

Para prevenir el envenenamiento de datos de IA, es fundamental proteger los grupos de datos de entrenamiento contra alteraciones no autorizadas. Los métodos de prevención incluyen la validación de datos, la aplicación del principio de mínimo privilegio, el uso de diversas fuentes de datos, la supervisión y auditoría de los cambios de datos, y el uso de entrenamiento adversario para que los modelos reconozcan las entradas sospechosas.

PRIMEROS PASOS

Inteligencia artificial

Aprendizaje automático

Big data

Glosario

Centro de aprendizaje