L'empoisonnement des données d'IA est une tentative délibérée d'introduire un biais dans les données d'entraînement d'un modèle d'IA de sorte que ses résultats sont faussés.
Cet article s'articule autour des points suivants :
Copier le lien de l'article
L'empoisonnement des données par intelligence artificielle (IA) se produit lorsqu'un acteur malveillant manipule les résultats d'un modèle d'IA ou d'apprentissage automatique en modifiant ses données d'entraînement. L'objectif de l'acteur malveillant dans une attaque par empoisonnement des données de l'IA est de faire en sorte que le modèle produise des résultats biaisés ou dangereux lors de l'inférence.
Les modèles d'IA et d'apprentissage automatique* contiennent deux éléments principaux : les données d'apprentissage et les algorithmes. Imaginez l'algorithme comme un moteur de voiture, et les données d'entraînement comme l'essence qui sert de combustible au moteur : les données font fonctionner un modèle d'IA. Lors d'une attaque par empoisonnement de données, c'est comme si quelqu'un devait ajouter à l'essence un ingrédient supplémentaire qui ralentit la voiture.
Les conséquences potentielles de l'empoisonnement des données de l'IA sont devenues plus graves à mesure que de plus en plus d'entreprises et de personnes commencent à utiliser l'IA dans leurs activités quotidiennes. Une attaque par empoisonnement des données de l'IA réussie peut modifier définitivement le résultat d'un modèle de manière à favoriser la personne à l'origine de l'attaque.
L'empoisonnement des données de l'IA est particulièrement préoccupant pour les grands modèles de langage (LLM). L'empoisonnement de données figure dans le Top 10 de l'OWASP des risques liés aux LLM, et ces dernières années, des chercheurs ont mis en garde contre des vulnérabilités à l'empoisonnement de données affectant le secteur de la santé, la génération de code et les modèles de génération de texte.
*Les expressions « apprentissage automatique » et « intelligence artificielle » sont parfois utilisées de manière interchangeable, bien que les deux termes désignent des ensembles de capacités de calcul légèrement différents. L'apprentissage automatique, quant à lui, est un type d'IA.
Les développeurs d'IA utilisent d'immenses volumes de données pour entraîner leurs modèles. Concrètement, l'ensemble de données d'apprentissage fournit aux modèles des exemples, et les modèles apprennent ensuite à dégager des généralités à partir de ces exemples. Plus l'ensemble de données contient d'exemples, plus le modèle devient affiné et précis, tant que les données sont correctes et relativement impartiales.
L'empoisonnement des données introduit un biais intentionnel dans l'ensemble de données d'apprentissage, en modifiant le point de départ des algorithmes du modèle, de sorte que les résultats obtenus sont différents de ceux prévus à l'origine par les développeurs.
Imaginons qu'un enseignant soit en train d'écrire au tableau un problème mathématique que ses élèves vont devoir résoudre : par exemple, « 47 * (18 + 5) = ? ». La réponse est 1 081. Si un étudiant se faufile derrière son dos et remplace « 47 » par « 46 », la réponse n'est plus 1 081, mais 1 058. Les attaques par empoisonnement de données sont semblables à cet étudiant furtif : si les données de départ changent légèrement, la réponse est également modifiée.
Les modifications non autorisées des données d'entraînement peuvent provenir d'un certain nombre de sources.
Attaque interne : une personne disposant d'un accès légitime aux données d'entraînement peut introduire des biais, de fausses données ou d'autres modifications susceptibles de corrompre les résultats. Ces attaques sont plus difficiles à détecter et à bloquer que les attaques lancées par un tiers externe sans autorisation d'accès aux données.
Attaque sur la chaîne d'approvisionnement : la plupart des modèles d'IA et d'apprentissage automatique s'appuient sur des ensembles de données provenant de diverses sources pour l'entraînement des modèles. Une ou plusieurs de ces sources peuvent contenir des données « empoisonnées » affectant tout modèle utilisant ces données pour l'entraînement et l'affinage des modèles.
Accès non autorisé : un acteur malveillant peut accéder à un ensemble de données d'apprentissage de plusieurs façons, des mouvements latéraux via une compromission précédente à l'obtention des informations d'identification d'un développeur par phishing, en passant par plusieurs attaques potentielles.
Il existe plusieurs façons pour un acteur malveillant d'empoisonner les données d'un modèle d'IA à ses propres fins. Voici quelques-unes des techniques les plus importantes à connaître :
Validation des données : avant l'entraînement, les ensembles de données doivent être analysés afin d'identifier les données malveillantes, suspectes ou aberrantes.
Principe du moindre privilège : en d'autres termes, seuls les personnes et les systèmes qui ont absolument besoin d'accéder aux données d'apprentissage en ont l'autorisation. Le principe du moindre privilège est un principe fondamental de l'approche Zero Trust de la sécurité, qui permet d'éviter les mouvements latéraux et la compromission d'informations d'identification.
Diversité des sources de données : puiser dans des sources plus vastes pour les données peut contribuer à réduire les effets du biais dans un ensemble de données donné.
Surveillance et audit : suivre et enregistrer les personnes qui ont modifié les données d'entraînement, ce qui a été modifié et à quel moment les modifications ont eu lieu permet aux développeurs d'identifier des logiques suspectes ou de suivre l'activité d'un acteur malveillant après que l'ensemble de données a été empoisonné.
Entraînement antagoniste : il s'agit d'entraîner un modèle d'IA à reconnaître des entrées intentionnellement trompeuses.
D'autres mesures de défense des applications, comme les pare-feu, peuvent également être appliquées aux modèles d'IA. Pour prévenir l'empoisonnement des données et d'autres attaques, Cloudflare propose Firewall for AI, qui peut être déployé en amont des LLM afin d'identifier et de bloquer les tentatives d'utilisation abusive avant qu'elles ne les atteignent. En savoir plus sur Firewall for AI.