Qu'est-ce que l'empoisonnement des données liées à l'IA ?

L'empoisonnement des données d'IA est une tentative délibérée d'introduire un biais dans les données d'entraînement d'un modèle d'IA de sorte que ses résultats sont faussés.

Objectifs d’apprentissage

Cet article s'articule autour des points suivants :

  • Expliquer le fonctionnement d'une attaque par empoisonnement des données liées à l'IA
  • Décrire les types d'attaques par empoisonnement des données liées à l'IA et aux LLM
  • Répertorier les méthodes de prévention de l'empoisonnement de données

Copier le lien de l'article

Qu'est-ce que l'empoisonnement des données liées à l'IA ?

L'empoisonnement des données par intelligence artificielle (IA) se produit lorsqu'un acteur malveillant manipule les résultats d'un modèle d'IA ou d'apprentissage automatique en modifiant ses données d'entraînement. L'objectif de l'acteur malveillant dans une attaque par empoisonnement des données de l'IA est de faire en sorte que le modèle produise des résultats biaisés ou dangereux lors de l'inférence.

Les modèles d'IA et d'apprentissage automatique* contiennent deux éléments principaux : les données d'apprentissage et les algorithmes. Imaginez l'algorithme comme un moteur de voiture, et les données d'entraînement comme l'essence qui sert de combustible au moteur : les données font fonctionner un modèle d'IA. Lors d'une attaque par empoisonnement de données, c'est comme si quelqu'un devait ajouter à l'essence un ingrédient supplémentaire qui ralentit la voiture.

Les conséquences potentielles de l'empoisonnement des données de l'IA sont devenues plus graves à mesure que de plus en plus d'entreprises et de personnes commencent à utiliser l'IA dans leurs activités quotidiennes. Une attaque par empoisonnement des données de l'IA réussie peut modifier définitivement le résultat d'un modèle de manière à favoriser la personne à l'origine de l'attaque.

L'empoisonnement des données de l'IA est particulièrement préoccupant pour les grands modèles de langage (LLM). L'empoisonnement de données figure dans le Top 10 de l'OWASP des risques liés aux LLM, et ces dernières années, des chercheurs ont mis en garde contre des vulnérabilités à l'empoisonnement de données affectant le secteur de la santé, la génération de code et les modèles de génération de texte.

*Les expressions « apprentissage automatique » et « intelligence artificielle » sont parfois utilisées de manière interchangeable, bien que les deux termes désignent des ensembles de capacités de calcul légèrement différents. L'apprentissage automatique, quant à lui, est un type d'IA.

Comment fonctionne une attaque par empoisonnement des données ?

Les développeurs d'IA utilisent d'immenses volumes de données pour entraîner leurs modèles. Concrètement, l'ensemble de données d'apprentissage fournit aux modèles des exemples, et les modèles apprennent ensuite à dégager des généralités à partir de ces exemples. Plus l'ensemble de données contient d'exemples, plus le modèle devient affiné et précis, tant que les données sont correctes et relativement impartiales.

L'empoisonnement des données introduit un biais intentionnel dans l'ensemble de données d'apprentissage, en modifiant le point de départ des algorithmes du modèle, de sorte que les résultats obtenus sont différents de ceux prévus à l'origine par les développeurs.

Imaginons qu'un enseignant soit en train d'écrire au tableau un problème mathématique que ses élèves vont devoir résoudre : par exemple, « 47 * (18 + 5) = ? ». La réponse est 1 081. Si un étudiant se faufile derrière son dos et remplace « 47 » par « 46 », la réponse n'est plus 1 081, mais 1 058. Les attaques par empoisonnement de données sont semblables à cet étudiant furtif : si les données de départ changent légèrement, la réponse est également modifiée.

Comment se déroulent les attaques par empoisonnement des données de l'IA ?

Les modifications non autorisées des données d'entraînement peuvent provenir d'un certain nombre de sources.

Attaque interne : une personne disposant d'un accès légitime aux données d'entraînement peut introduire des biais, de fausses données ou d'autres modifications susceptibles de corrompre les résultats. Ces attaques sont plus difficiles à détecter et à bloquer que les attaques lancées par un tiers externe sans autorisation d'accès aux données.

Attaque sur la chaîne d'approvisionnement : la plupart des modèles d'IA et d'apprentissage automatique s'appuient sur des ensembles de données provenant de diverses sources pour l'entraînement des modèles. Une ou plusieurs de ces sources peuvent contenir des données « empoisonnées » affectant tout modèle utilisant ces données pour l'entraînement et l'affinage des modèles.

Accès non autorisé : un acteur malveillant peut accéder à un ensemble de données d'apprentissage de plusieurs façons, des mouvements latéraux via une compromission précédente à l'obtention des informations d'identification d'un développeur par phishing, en passant par plusieurs attaques potentielles.

Quelles sont les deux catégories principales d'attaques par empoisonnement des données ?

  • Attaques directes (ou ciblées) : ces attaques visent à fausser ou à modifier le résultat d'un modèle uniquement en réponse à des requêtes ou des actions particulières. Sinon, cette attaque laisserait le modèle inchangé et donnerait les réponses attendues à pratiquement toutes les requêtes. Par exemple, un acteur malveillant peut chercher à tromper un filtre de sécurité des e-mails basé sur l'IA afin de laisser passer certaines URL malveillantes, tout en fonctionnant comme prévu.
  • Attaques indirectes (ou non ciblées) : ces attaques visent à affecter les performances d'un modèle en général. Une attaque indirecte peut simplement ralentir les performances du modèle dans son ensemble, ou l'inciter à fournir des types particuliers de réponses. Un adversaire étranger, par exemple, pourrait vouloir biaiser les LLM à usage général et les amener à diffuser des informations erronées dans un pays particulier, à des fins de propagande.

Quels sont les types d'attaques par empoisonnement des données de l'IA ?

Il existe plusieurs façons pour un acteur malveillant d'empoisonner les données d'un modèle d'IA à ses propres fins. Voici quelques-unes des techniques les plus importantes à connaître :

  • Empoisonnement à la porte dérobée : cette attaque introduit une vulnérabilité dissimulée dans le modèle de sorte qu'en réponse à certains déclencheurs spécifiques connus de l'acteur malveillant, il se comporte de manière non sécurisée. L'empoisonnement à la porte dérobée est particulièrement dangereux, car un modèle d'IA avec une porte dérobée cachée se comportera normalement en l'absence de déclencheurs.
  • Erreurs d'étiquetage : un acteur malveillant peut modifier la manière dont les données sont étiquetées dans l'ensemble de données d'entraînement d'un modèle, conduisant ainsi le modèle à mal identifier les éléments après son entraînement.
  • Injection et manipulation de données : une telle attaque modifie, ajoute ou supprime des données d'un ensemble de données. Ces attaques visent à orienter le modèle d'IA dans une certaine direction.
  • Attaque concernant la disponibilité : cette attaque vise à ralentir ou à bloquer le modèle en injectant des données qui dégradent ses performances globales.

Comment prévenir l'empoisonnement de données ?

Validation des données : avant l'entraînement, les ensembles de données doivent être analysés afin d'identifier les données malveillantes, suspectes ou aberrantes.

Principe du moindre privilège : en d'autres termes, seuls les personnes et les systèmes qui ont absolument besoin d'accéder aux données d'apprentissage en ont l'autorisation. Le principe du moindre privilège est un principe fondamental de l'approche Zero Trust de la sécurité, qui permet d'éviter les mouvements latéraux et la compromission d'informations d'identification.

Diversité des sources de données : puiser dans des sources plus vastes pour les données peut contribuer à réduire les effets du biais dans un ensemble de données donné.

Surveillance et audit : suivre et enregistrer les personnes qui ont modifié les données d'entraînement, ce qui a été modifié et à quel moment les modifications ont eu lieu permet aux développeurs d'identifier des logiques suspectes ou de suivre l'activité d'un acteur malveillant après que l'ensemble de données a été empoisonné.

Entraînement antagoniste : il s'agit d'entraîner un modèle d'IA à reconnaître des entrées intentionnellement trompeuses.

D'autres mesures de défense des applications, comme les pare-feu, peuvent également être appliquées aux modèles d'IA. Pour prévenir l'empoisonnement des données et d'autres attaques, Cloudflare propose Firewall for AI, qui peut être déployé en amont des LLM afin d'identifier et de bloquer les tentatives d'utilisation abusive avant qu'elles ne les atteignent. En savoir plus sur Firewall for AI.