L'IA a permis aux entreprises de créer et d'améliorer des applications avec une vitesse et une ampleur impressionnantes. Cette évolution du développement logiciel est portée par l'adoption rapide d'outils d'IA générative, tels que ChatGPT et GitHub Copilot.
Parmi ses nombreux scénarios d'utilisation, l'IA peut générer du code rapidement (et, dans une large mesure, avec précision), nettoyer le code existant, repérer les algorithmes utiles, générer la documentation d'un logiciel et accélérer le processus de codage manuel.
Simplement dit, l'IA peut être un puissant outil de développement : lorsqu'elle reçoit des instructions spécifiques et soigneusement rédigées, elle peut générer des résultats de qualité, permettant d'économiser du temps et de la main-d'œuvre.
Cependant, toute technologie comporte des limites ; et dans le cas de l'IA, nous avons observé de sérieux risques en matière de sécurité et de confidentialité des données, parfois au point de mettre en doute les avantages apportés par l'IA en matière d'efficacité – qu'il s'agisse de l'omission d'erreurs critiques ou de la divulgation de code propriétaire. La prévention des pertes de données (DLP) est une des techniques qui permet de réduire ces risques, avec une telle solution les entreprises sont plus à même de détecter les mouvements de données sensibles, de se conformer aux réglementations relatives aux données et à la confidentialité et de prévenir l'exfiltration des données.
Cependant, les outils IA sont encore très nouveaux, c'est pourquoi de nombreuses solutions de sécurité traditionnelles ne sont pas équipées pour atténuer les risques et les inconnues qu'ils comportent pour les données de l'entreprise. Les entreprises qui cherchent à intégrer l'IA dans leurs processus de développement peuvent quant à elles déployer ces outils en toute sécurité en adoptant une stratégie de protection des données résiliente à l'IA. Les solutions modernes de protection des données permettent d'éviter la compromission d'informations confidentielles, les violations de la conformité, les attaques perpétrées par des acteurs malveillants et la perte de propriété intellectuelle.
Le développement assisté par l'IA peut aider les entreprises à encourager l'innovation à grande échelle. Cependant, lorsque ces outils sont utilisés sans tenir compte des limites et des risques qu'ils comportent, ils peuvent grever le processus de développement, voire porter préjudice aux entreprises qui les mettent en œuvre.
Les outils d'IA générative ingèrent les informations qui leur sont transmises, puis utilisent ces données pour identifier des modèles et des structures qui leur permettent de générer de nouveaux contenus. Plus ces grands modèles linguistiques (LLM) reçoivent de données, plus ils deviennent sophistiqués et plus leur portée s'élargit.
Cela engendre d'importantes problématiques au regard des données propriétaires. Prenons l'exemple de Samsung, qui a interdit l'utilisation de ChatGPT après qu'un ingénieur a accidentellement transféré du code source interne vers l'outil. Bien que ces données n'aient pas fait l'objet d'une fuite, au sens traditionnel du terme, les données partagées avec les outils d'IA sont souvent stockées sur des serveurs qui échappent au contrôle de l'entreprise ; celle-ci perd alors la possibilité de protéger la manière dont ces données sont utilisées et distribuées.
L'une des préoccupations les plus fréquentes des entreprises est la manière dont les plateformes d'IA collectent les données des utilisateurs afin de poursuivre l'apprentissage de leurs LLM. Les plateformes d'IA populaires, telles qu'OpenAI et GitHub Copilot, forment leurs modèles d'IA avec les données qu'elles reçoivent et ont, à plusieurs occasions, reproduit ces données lors de la génération de résultats pour d'autres utilisateurs de ces plateformes. Cette situation engendre des problématiques de protection de la confidentialité en cas de divulgation publique de code propriétaire, de données sensibles ou d'informations personnellement identifiables (IPI).
En fin de compte, partager des données avec des plateformes d'IA revient à partager des données avec n'importe quelle autre entreprise. Les utilisateurs leur font confiance pour protéger les données saisies, sans avoir conscience que la sécurité des données n'est pas une fonctionnalité essentielle de ces plateformes – et que plus ces dernières accumulent de données, plus elles deviennent une cible lucrative.
De nombreuses fuites liées aux outils d'IA sont d'origine accidentelle : un ingénieur transfère vers un outil du code qui n'aurait pas dû être diffusé hors des environnements internes, ou un service découvre des réponses de ChatGPT ressemblant étrangement à des données confidentielles de l'entreprise.
D'autres scénarios de compromission de données sont plus insidieux. FraudGPT et WormGPT sont deux outils d'IA spécifiquement formés avec des données volées, dans le seul but de créer des campagnes de phishing, d'automatiser des logiciels malveillants et de lancer des attaques par ingénierie sociale plus sophistiquées, d'origine humaine en apparence. Bien que la plupart des plateformes d'IA soient principalement utilisées à des fins bienveillantes, la puissante technologie sur laquelle elles reposent peut être formée pour accélérer et soutenir des attaques.
En plus d'exploiter des données volées, des outils d'IA plus bénins peuvent générer du code instable. Une étude récente a révélé que 40 % du code généré par GitHub Copilot contenait au moins une des 25 vulnérabilités les plus courantes identifiées par MITRE. Les auteurs de l'étude ont déterminé que c'était le résultat de l'apprentissage de Copilot à partir du référentiel de code open source de GitHub, vers lequel tout utilisateur peut transférer du code.
Enfin, les outils d'IA eux-mêmes peuvent également être la cible d'acteurs malveillants. Dans une affaire récente, ChatGPT a été victime d'une violation de données, lors de laquelle plus de 100 000 comptes ont été compromis. Cette violation a entraîné la divulgation de noms, d'adresses e-mail et de coordonnées de paiement, ainsi que d'informations de cartes de paiement, mais également de titres et de messages de discussions confidentielles générées avec l'outil.
La facilité avec laquelle les outils d'IA peuvent être manipulés soulève des questions sur la capacité des entreprises à protéger pleinement les données des utilisateurs lors de l'utilisation de ces technologies. Que ce soit par inadvertance ou par malveillance, l'utilisation de logiciels d'IA peut ouvrir la porte à la divulgation de données et engendrer des problèmes de conformité généralisés.
Par exemple, des chercheurs ont découvert, dans le logiciel d'IA de NVIDIA, une faille critique qui leur a permis de contourner les restrictions intentionnelles en matière de confidentialité et de sécurité des données. En moins d'une journée, ils sont parvenus à duper l'IA, entraînant la divulgation d'IPI.
Pour protéger les données sensibles contre les risques liés à l'IA, il peut être utile de considérer l'IA comme l'un des types d'informatique fantôme (Shadow IT) les plus dangereux qui soient. En termes simples, l'utilisation d'outils d'IA tiers entraîne souvent un manque crucial de visibilité sur la manière dont les données sont traitées, stockées et diffusées.
Dans la mesure où les outils d'IA open-source n'ont pas été conçus dans l'optique d'assurer la sécurité et la confidentialité des données, il incombe aux entreprises de défendre proactivement leurs systèmes, leur code et leurs données d'utilisateurs contre une éventuelle compromission. À défaut d'interdire complètement l'utilisation de l'IA, les entreprises peuvent recourir à différentes stratégies permettant de minimiser ces risques :
Avant d'inaugurer de nouveaux outils d'IA tiers, évaluez les scénarios d'utilisation prévus pour l'IA. L'IA sera-t-elle utilisée pour suggérer une documentation en langage naturel ? Pour développer des applications logicielles à codage schématisé ou sans codage ? Pour évaluer les failles du code existant et y remédier ? Pour être intégrée à des applications internes ou des produits accessibles au grand public ?
Une fois ces scénarios d'utilisation classés par ordre de priorité, il est important d'évaluer les risques potentiels pouvant être introduits, voire exacerbés par l'exposition aux outils d'IA. Dans la mesure où les risques liés à l'IA sont très vastes, les entreprises doivent établir des directives pour prévenir et corriger les vulnérabilités qui se présentent. Il peut également être utile de se référer à la documentation existante détaillant les vulnérabilités liées à un logiciel basé sur l'IA spécifique.
Il va sans dire que les entreprises ne doivent pas permettre à leur personnel d'accéder sans aucune restriction à l'IA, notamment lorsque des informations propriétaires et des données d'utilisateurs sont en jeu. Au-delà des problématiques liées à la sécurité et la confidentialité des données, les outils d'IA soulèvent des questions de partialité et de transparence, qui peuvent, à leur tour, avoir une incidence sur les avantages du développement reposant sur l'IA.
C'est pourquoi les entreprises doivent élaborer des lignes directrices et des protocoles régissant l'utilisation de l'IA par des tiers. Elles doivent déterminer quelles données peuvent être partagées avec les outils d'IA, dans quel contexte ces données peuvent être partagées et quels outils d'IA sont autorisés à y accéder. Elles doivent étudier les biais potentiels introduits par les outils d'IA, documenter l'utilisation de l'IA au sein de l'entreprise et établir des normes relatives à la qualité des résultats générés par l'IA et recueillis par l'entreprise.
L'IA évolue continuellement et doit, par conséquent, faire l'objet d'un suivi dans la durée. L'utilisation de modèles d'IA exige d'ajuster les protocoles existants et les restrictions relatives aux données à mesure que de nouveaux scénarios d'utilisation émergent. En évaluant continuellement le code et les fonctions générés par l'IA, les entreprises pourraient être en mesure d'identifier plus facilement les risques potentiels et de minimiser le risque de compromission.
Il est souhaitable que les contrôles internes soient complétés par des évaluations régulières des outils d'IA tiers. À mesure que de nouvelles vulnérabilités sont identifiées dans ChatGPT, Copilot ou d'autres logiciels basés sur l'IA, il est important de réfléchir aux types de données introduites dans ces outils – voire, si nécessaire, d'interdire l'accès à ces outils jusqu'à ce que les bugs aient été corrigés.
Les solutions traditionnelles de protection des données ne sont pas suffisamment adaptables ou flexibles pour suivre l'évolution des risques liés aux données de l'IA. De nombreux produits standard de prévention des pertes de données (DLP) se caractérisent par une configuration et une maintenance complexes, et introduisent des expériences utilisateur désagréables ; dans la pratique, les contrôles DLP sont donc souvent sous-utilisés, voire entièrement contournés. Qu'ils soient déployés sous forme de plateforme autonome ou intégrés à d'autres services de sécurité, les services DLP sont souvent trop inefficaces et trop peu performants pour être facilement adaptés aux différentes formes d'exploitation de l'IA.
Au lieu de cela, les entreprises doivent investir dans une technologie de protection des données conçue pour offrir suffisamment d'agilité pour atténuer les risques liés à l'IA et protéger les informations propriétaires et les données des utilisateurs contre les utilisations abusives, les compromissions et les attaques. Lorsque vous évaluez des solutions modernes de protection des données, optez pour une solution dont l'architecture permet de sécuriser le code des développeurs sur tous les sites où résident des données précieuses, tout en évoluant à la mesure des besoins changeants de l'entreprise en matière de sécurité et de protection de la confidentialité.
Les entreprises ne font que commencer à explorer les approches qui leur permettront de tirer profit de l'IA générative. Bien qu'elle n'en soit qu'à ses balbutiements, l'IA a déjà exposé des données et introduit des risques liés à la confidentialité des données. Aujourd'hui, minimiser efficacement ces risques exige une coordination stratégique entre les personnes, les processus et la technologie.
Cloudflare est conçue pour constamment devancer les risques distinctement modernes liés aux données, à l'image des outils d'IA émergents. Cloudflare One propose la convergence d'une multitude de solutions ponctuelles de protection des données sur une plateforme SSE unique, permettant une gestion plus simple. La solution applique des contrôles à tous les niveaux, dans tous les environnements web, SaaS et privés, avec rapidité et cohérence. Tous les services étant construits sur le réseau programmable de Cloudflare, de nouvelles capacités sont développées rapidement et déployées sur l'ensemble des 330 sites que compte le réseau.
Cette approche aide les entreprises à mettre en œuvre leur stratégie de protection des données, de sorte que :
Les équipes de sécurité peuvent protéger plus efficacement les données en simplifiant la connectivité ; des options flexibles inline et basées sur les API permettent d'assurer l'acheminement du trafic vers Cloudflare, afin d'appliquer les contrôles de données.
Les collaborateurs peuvent améliorer la productivité en garantissant des expériences utilisateur fiables et cohérentes, offrant une rapidité supérieure à celles de solutions concurrentes.
Les entreprises peuvent accroître leur agilité en innovant rapidement, leur permettant ainsi de répondre à l'évolution des besoins en matière de confidentialité et de sécurité des données.
Cet article fait partie de notre série consacrée aux nouvelles tendances et évolutions susceptibles d'affecter les décideurs en matière de technologies d'aujourd'hui.
Téléchargez le livre blanc Simplifier la manière dont nous protégeons les applications SaaS pour découvrir comment Cloudflare aide les entreprises à protéger leurs applications et leurs données avec une approche Zero Trust.
Cet article vous permettra de mieux comprendre les points suivants :
Comment l'IA met en danger les données propriétaires
Les lacunes des solutions existantes de protection des données
Des stratégies pour minimiser les risques liés à l'IA, tout en maximisant la productivité
Simplifier la façon dont nous protégeons les applications SaaS
Qu'est-ce qu'une solution de prévention des pertes de données ?