What is AI data poisoning?

AI data poisoning is a deliberate attempt to bias an AI model’s training data so that it produces dangerous or inaccurate results. Someone might, for example, alter an AI model's data so that it lies to or tricks its users. AI data poisoning is of particular concern for large language models (LLMs), so it is important for AI developers to carefully safeguard and vet their training data.

How does data poisoning affect AI models?

By introducing slight changes to training data, an attacker can significantly alter an AI model’s outputs — just as a math problem will lead to a different answer if the initial values change (e.g. "3 + 3 = 6" vs. "3 + 4 = 7"). A data-poisoned model will therefore perform differently from how its developers and users expect, and possibly give responses that benefit the attacker or put users at risk.

What are the main types of AI data poisoning attacks?

The primary data poisoning attack methods include backdoor poisoning, mislabeling, data injection, data manipulation, and availability attacks. Each type of data poisoning attack aims to bias or degrade AI model performance.

What are common attack vectors for AI data poisoning?

Attackers may use insider access, supply chain attacks via tainted external data, or unauthorized access to manipulate or corrupt training datasets.

What are the potential consequences of data poisoning?

Data poisoning can permanently alter a model’s output to favor the attacker. It can cause a model to produce propaganda or hate speech, make inaccurate recommendations, provide false data, or promote malware downloads.

What are some ways to prevent AI data poisoning?

To prevent AI data poisoning, protecting collections of training data from unauthorized alteration is crucial. Prevention methods include data validation, applying the principle of least privilege, using diverse data sources, monitoring and auditing data changes, and using adversarial training to get models to recognize misleading inputs.

Qu'est-ce que l'empoisonnement des données liées à l'IA ?

L'empoisonnement des données d'IA est une tentative délibérée d'introduire un biais dans les données d'entraînement d'un modèle d'IA de sorte que ses résultats sont faussés.

Objectifs d’apprentissage

Cet article s'articule autour des points suivants :

Expliquer le fonctionnement d'une attaque par empoisonnement des données liées à l'IA
Décrire les types d'attaques par empoisonnement des données liées à l'IA et aux LLM
Répertorier les méthodes de prévention de l'empoisonnement de données

Contenu associé

Qu'est-ce que l'intelligence artificielle (IA) ?

Qu'est-ce que l'apprentissage automatique ?

Qu’est-ce qu’un LLM ?

L'entraînement et l'inférence en IA

Classement OWASP Top 10 pour les LLM

Vous souhaitez continuer à enrichir vos connaissances ?

Abonnez-vous à theNET, le récapitulatif mensuel par Cloudflare des informations les plus populaires sur Internet !

Copier le lien de l'article

Résumé de l’article :

L’empoisonnement des données correspond à l’injection d'informations malveillantes dans des ensembles de données utilisés pour l’entraînement. L’objectif est de manipuler le comportement d’un modèle d’IA, ce qui compromet son exactitude, sa fiabilité et l’intégrité globale des résultats de l’apprentissage automatique.
Les acteurs malveillants utilisent l’empoisonnement des données d’IA pour créer des portes dérobées ou des biais dans les résultats, ce qui leur permet de contourner les filtres de sécurité ou de pousser le système à faire des prédictions spécifiques et incorrectes.
Pour se protéger contre l’empoisonnement de données, il est nécessaire de procéder à un assainissement rigoureux des données des données, de vérifier les sources d’entraînement et de mettre en place une surveillance continue afin de détecter et neutraliser les données antagonistes avant qu’elles ne corrompent le modèle.

Qu'est-ce que l'empoisonnement des données liées à l'IA ?

L'empoisonnement des données par intelligence artificielle (IA) se produit lorsqu'un acteur malveillant manipule les résultats d'un modèle d'IA ou d'apprentissage automatique en modifiant ses données d'entraînement. L'objectif de l'acteur malveillant dans une attaque par empoisonnement des données de l'IA est de faire en sorte que le modèle produise des résultats biaisés ou dangereux lors de l'inférence.

Les modèles d'IA et d'apprentissage automatique* contiennent deux éléments principaux : les données d'apprentissage et les algorithmes. Imaginez l'algorithme comme un moteur de voiture, et les données d'entraînement comme l'essence qui sert de combustible au moteur : les données font fonctionner un modèle d'IA. Lors d'une attaque par empoisonnement de données, c'est comme si quelqu'un devait ajouter à l'essence un ingrédient supplémentaire qui ralentit la voiture.

Les conséquences potentielles de l'empoisonnement des données de l'IA sont devenues plus graves à mesure que de plus en plus d'entreprises et de personnes commencent à utiliser l'IA dans leurs activités quotidiennes. Une attaque par empoisonnement des données de l'IA réussie peut modifier définitivement le résultat d'un modèle de manière à favoriser la personne à l'origine de l'attaque.

L'empoisonnement des données de l'IA est particulièrement préoccupant pour les grands modèles de langage (LLM). L'empoisonnement de données figure dans le Top 10 de l'OWASP des risques liés aux LLM, et ces dernières années, des chercheurs ont mis en garde contre des vulnérabilités à l'empoisonnement de données affectant le secteur de la santé, la génération de code et les modèles de génération de texte.

*Les expressions « apprentissage automatique » et « intelligence artificielle » sont parfois utilisées de manière interchangeable, bien que les deux termes désignent des ensembles de capacités de calcul légèrement différents. L'apprentissage automatique, quant à lui, est un type d'IA.

Comment fonctionne une attaque par empoisonnement des données ?

Les développeurs d'IA utilisent d'immenses volumes de données pour entraîner leurs modèles. Concrètement, l'ensemble de données d'apprentissage fournit aux modèles des exemples, et les modèles apprennent ensuite à dégager des généralités à partir de ces exemples. Plus l'ensemble de données contient d'exemples, plus le modèle devient affiné et précis, tant que les données sont correctes et relativement impartiales.

L'empoisonnement des données introduit un biais intentionnel dans l'ensemble de données d'apprentissage, en modifiant le point de départ des algorithmes du modèle, de sorte que les résultats obtenus sont différents de ceux prévus à l'origine par les développeurs.

Imaginons qu'un enseignant soit en train d'écrire au tableau un problème mathématique que ses élèves vont devoir résoudre : par exemple, « 47 * (18 + 5) = ? ». La réponse est 1 081. Si un étudiant se faufile derrière son dos et remplace « 47 » par « 46 », la réponse n'est plus 1 081, mais 1 058. Les attaques par empoisonnement de données sont semblables à cet étudiant furtif : si les données de départ changent légèrement, la réponse est également modifiée.

Comment se déroulent les attaques par empoisonnement des données de l'IA ?

Les modifications non autorisées des données d'entraînement peuvent provenir d'un certain nombre de sources.

Attaque interne : une personne disposant d'un accès légitime aux données d'entraînement peut introduire des biais, de fausses données ou d'autres modifications susceptibles de corrompre les résultats. Ces attaques sont plus difficiles à détecter et à bloquer que les attaques lancées par un tiers externe sans autorisation d'accès aux données.

Attaque sur la chaîne d'approvisionnement : la plupart des modèles d'IA et d'apprentissage automatique s'appuient sur des ensembles de données provenant de diverses sources pour l'entraînement des modèles. Une ou plusieurs de ces sources peuvent contenir des données « empoisonnées » affectant tout modèle utilisant ces données pour l'entraînement et l'affinage des modèles.

Accès non autorisé : un acteur malveillant peut accéder à un ensemble de données d'apprentissage de plusieurs façons, des mouvements latéraux via une compromission précédente à l'obtention des informations d'identification d'un développeur par phishing, en passant par plusieurs attaques potentielles.

Quelles sont les deux catégories principales d'attaques par empoisonnement des données ?

Attaques directes (ou ciblées) : ces attaques visent à fausser ou à modifier le résultat d'un modèle uniquement en réponse à des requêtes ou des actions particulières. Sinon, cette attaque laisserait le modèle inchangé et donnerait les réponses attendues à pratiquement toutes les requêtes. Par exemple, un acteur malveillant peut chercher à tromper un filtre de sécurité des e-mails basé sur l'IA afin de laisser passer certaines URL malveillantes, tout en fonctionnant comme prévu.
Attaques indirectes (ou non ciblées) : ces attaques visent à affecter les performances d'un modèle en général. Une attaque indirecte peut simplement ralentir les performances du modèle dans son ensemble, ou l'inciter à fournir des types particuliers de réponses. Un adversaire étranger, par exemple, pourrait vouloir biaiser les LLM à usage général et les amener à diffuser des informations erronées dans un pays particulier, à des fins de propagande.

Quels sont les types d'attaques par empoisonnement des données de l'IA ?

Il existe plusieurs façons pour un acteur malveillant d'empoisonner les données d'un modèle d'IA à ses propres fins. Voici quelques-unes des techniques les plus importantes à connaître :

Empoisonnement à la porte dérobée : cette attaque introduit une vulnérabilité dissimulée dans le modèle de sorte qu'en réponse à certains déclencheurs spécifiques connus de l'acteur malveillant, il se comporte de manière non sécurisée. L'empoisonnement à la porte dérobée est particulièrement dangereux, car un modèle d'IA avec une porte dérobée cachée se comportera normalement en l'absence de déclencheurs.
Erreurs d'étiquetage : un acteur malveillant peut modifier la manière dont les données sont étiquetées dans l'ensemble de données d'entraînement d'un modèle, conduisant ainsi le modèle à mal identifier les éléments après son entraînement.
Injection et manipulation de données : une telle attaque modifie, ajoute ou supprime des données d'un ensemble de données. Ces attaques visent à orienter le modèle d'IA dans une certaine direction.
Attaque concernant la disponibilité : cette attaque vise à ralentir ou à bloquer le modèle en injectant des données qui dégradent ses performances globales.

Comment prévenir l'empoisonnement de données ?

Validation des données : avant l'entraînement, les ensembles de données doivent être analysés afin d'identifier les données malveillantes, suspectes ou aberrantes.

Principe du moindre privilège : en d'autres termes, seuls les personnes et les systèmes qui ont absolument besoin d'accéder aux données d'apprentissage en ont l'autorisation. Le principe du moindre privilège est un principe fondamental d'un modèle Zero Trust de sécurité, qui peut contribuer à prévenir les mouvements latéraux et la compromission des informations d'identification.

Diversité des sources de données : puiser dans des sources plus vastes pour les données peut contribuer à réduire les effets du biais dans un ensemble de données donné.

Surveillance et audit : suivre et enregistrer les personnes qui ont modifié les données d'entraînement, ce qui a été modifié et à quel moment les modifications ont eu lieu permet aux développeurs d'identifier des logiques suspectes ou de suivre l'activité d'un acteur malveillant après que l'ensemble de données a été empoisonné.

Entraînement antagoniste : il s'agit d'entraîner un modèle d'IA à reconnaître des entrées intentionnellement trompeuses.

D’autres mesures de défense des applications, comme les pare-feu, peuvent également être appliquées aux modèles d’IA. Pour prévenir l’empoisonnement des données et d’autres attaques, Cloudflare propose AI Security for Apps, qui peut être déployé en amont des LLM afin d’identifier et de bloquer les tentatives d’utilisation abusive avant qu’elles ne les atteignent. En savoir plus sur la solution AI Security for Apps.

FAQ

Qu'est-ce que l'empoisonnement des données liées à l'IA ?

L'empoisonnement des données d'IA est une tentative délibérée de biaiser les données d'entraînement d'un modèle d'IA afin qu'il produise des résultats dangereux ou inexacts. Quelqu'un peut, par exemple, altérer les données d'un modèle d'IA pour qu'il mente ou trompe ses utilisateurs. L'empoisonnement des données de l'IA est particulièrement préoccupant pour les grands modèles de langage (LLM) ; il est donc important que les développeurs d'IA protègent et vérifient soigneusement leurs données d'entraînement.

Comment l’empoisonnement de données affecte-t-il les modèles d’IA ?

En introduisant de légères modifications aux données d'entraînement, un attaquant peut altérer considérablement les résultats d'un modèle d'IA, tout comme un problème mathématique donnera une réponse différente si les valeurs initiales changent (par exemple « 3 + 3 = 6 » contre « 3 + 4 = 7 »). Un modèle comportant des données empoisonnées fonctionnera donc différemment de ce à quoi ses développeurs et utilisateurs s'attendent, et pourra éventuellement fournir des réponses qui profitent à l'attaquant ou mettent les utilisateurs en danger.

Quels sont les principaux types d’attaques par empoisonnement des données liées à l’IA ?

Les principales méthodes d'empoisonnement de données sont l'empoisonnement à la porte dérobée, le mauvais étiquetage, l'injection de données, la manipulation de données et les attaques de disponibilité. Chaque type d'attaque par empoisonnement des données vise à biaiser ou à dégrader les performances des modèles d'IA.

Quels sont les vecteurs d'attaque courants pour l'empoisonnement des données liées à l'IA ?

Les attaquants peuvent utiliser l'accès interne, des attaques sur la chaîne d'approvisionnement via des données externes altérées, ou un accès non autorisé pour manipuler ou corrompre les ensembles de données d'entraînement.

Quelles sont les conséquences potentielles d'un empoisonnement de données ?

L'empoisonnement des données peut modifier de façon permanente le résultat d'un modèle afin de favoriser l'attaquant. Cela peut amener un modèle à produire des discours de propagande ou de haine, à faire des recommandations inexactes, à fournir de fausses données ou à promouvoir le téléchargement de logiciels malveillants.

Comment est-il possible d'empêcher l'empoisonnement des données liées à l'IA ?

Pour prévenir l’empoisonnement des données de l’IA, il est impératif de protéger les ensembles de données d’entraînement contre toute modification non autorisée. Les méthodes de prévention comprennent la validation des données, l’application du principe du moindre privilège, l’utilisation de diverses sources de données, la surveillance et l’audit des modifications des données, ainsi que l’utilisation de l’entraînement antagoniste pour faire en sorte que les modèles reconnaissent les entrées trompeuses.

DÉMARRAGE

Intelligence artificielle

Apprentissage automatique

Big data

Glossaire

Centre d'apprentissage