theNet by CLOUDFLARE

Lutter contre l'IA fantôme

Mettre en place des contrôles pour l'utilisation de l'IA par les gouvernements

La législation en matière d'IA gagne de l'importance

Le Bureau de la gestion et du budget de la Maison-Blanche a publié le Memorandum 24-10 concernant la gouvernance, l'innovation et la gestion des risques liés à l'utilisation de l'intelligence artificielle pour tous les organismes et tous les services fédéraux. Le mémorandum s'articule autour des trois orientations suivantes :

  • Renforcement de la gouvernance de l'IA

  • Progrès de l'innovation responsable en matière d'IA

  • Gestion des risques liés à l'utilisation de l'IA

L'année dernière, 25 États ont présenté une législation axée sur certains aspects de l'IA. 18 États et Porto Rico ont adopté une forme de législation concernant l'IA. Ces mesures législatives vont de l'étude initiale et de l'évaluation de l'utilisation de l'IA à la gouvernance de son utilisation par les employés, en passant par les contrôles nécessaires pour atténuer les conséquences malveillantes ou indésirables de l'IA.

Dans les grandes lignes, ce nouveau corpus de législation apporte de la nouveauté en matière de conformité, de consommation et de contrôles pour le gouvernement et les autres organisations du secteur public.

Dans cet article, nous passerons en revue certaines des difficultés auxquelles les entreprises sont confrontées, tant en ce qui concerne la protection des propriétés accessibles au public que l'identification et l'élaboration d'une gouvernance pour l'utilisation des modèles d'IA.


Difficulté n° 1 : protéger la propriété Internet publique contre les bots IA

L'incidence des robots d'indexation peut être à la fois légitime et problématique pour les organismes. Dans certains contextes, des robots d'indexation et des indexations responsables pourront utiliser des données accessibles au public, améliorant ainsi la capacité des citoyens à trouver les services et informations en ligne dont ils ont besoin.

D'un autre côté, des robots d'indexation d'IA mal développés ou malveillants peuvent extraire des contenus afin d'entraîner des plateformes d'IA publiques sans tenir compte de la confidentialité de ces contenus.

Si ces données sont transmises à des modèles d'entraînement au service de plateformes d'IA publiques, cela soulève de nombreux problèmes de propriété intellectuelle et de confidentialité. En l'absence de contrôles, ces bots peuvent également nuire aux performances des sites web publics pour tous les utilisateurs en consommant les ressources des interactions légitimes.

Contrôle 1 : déployer des protections côté application

Il existe plusieurs protections côté serveur qui peuvent être mises en œuvre pour faciliter le contrôle de la manière dont les bots interagissent avec le serveur. Le déploiement d'un fichier robots.txt en est un exemple. En quelques mots, ce fichier peut informer et définir la manière dont le trafic des robots d'indexation interagit avec les différentes sections du site et les données qu'ils contiennent. Le fichier est déployé à la racine du site et définit quels agents (bots) peuvent explorer le site et les ressources auxquelles ils peuvent accéder.

Cette méthode implique quelques difficultés. La première et la plus évidente tient au fait que le robot d'indexation doit respecter le fichier robots.txt. De manière générale, cela fait partie des bonnes pratiques pour les bots « respectables », cependant, soyons réalistes, tout le monde ne suit pas les règles. Il existe également des bots non malveillants qui peuvent tout simplement mal interpréter la syntaxe et qui sont donc en mesure d'interagir avec des éléments que les organismes souhaitent dissimuler.

En résumé, aussi courante cette méthode soit-elle, il convient de préciser que le recours à des fichiers robots.txt ou .htaccess (Apache) ne constitue pas une protection à toute épreuve. Elles font toutefois partie d’une démarche globale visant à diriger la manière dont les bots légitimes interagissent avec le contenu des applications.

Contrôle 2 : déployer une solution d'atténuation des bots au sein d'un pare-feu d'applications web

Les pare-feu d'applications web (WAF) et les solutions d'atténuation des bots représentent des enjeux majeurs dans le monde d'aujourd'hui pour les web applications publiques. Ces mesures de contrôle aident les entreprises à protéger leurs propriétés numériques publiques contre les vecteurs de menaces d'attaques DDoS, les API fantômes et non sécurisées, ainsi que diverses autres menaces actives sous la forme de bots.

Aujourd'hui, n'importe quelle stratégie d'atténuation de bots doit comprendre un programme capable d'identifier et de classer les bots qui extraient du contenu au service de l'apprentissage des données de l'IA. Ce mécanisme de classification est une fonctionnalité essentielle. Elle définit s'il convient de limiter ou de n'autoriser que les bots d'indexation IA légitimes et vérifiés ou de les bloquer complètement jusqu'à ce que soit déterminée la manière dont ces bots doivent être autorisés à interagir avec les sites web publics. Le WAF de Cloudflare identifie non seulement les robots d'indexation, mais détermine également s'ils ont été développés conformément aux bonnes pratiques de l'industrie.

L'été dernier, António Guterres, Secrétaire général des Nations Unies, mentionnant la comparaison qui avait été faite entre l'IA et l'imprimerie, observait que « s'il a fallu plus de 50 ans pour que les livres imprimés soient disponibles partout en Europe », « il a suffi de deux mois à ChatGPT pour atteindre 100 millions utilisateurs ». L'échelle et la croissance sans précédent des plateformes d'IA sont directement liées au nombre croissant de bots IA à la recherche d'ensembles de données publiquement accessibles à des fins d'entraînement.

Cela renvoie au deuxième aspect majeur à prendre en compte lors de la mise en œuvre de ces mesures de contrôle de la gestion des bots et de WAF. L'architecture de ces plateformes doit pouvoir évoluer dans un environnement mondial décentralisé. L'architecture du réseau de Cloudflare propose une fonctionnalité d'atténuation des bots gérée de manière centralisée et répartie dans le monde entier, déployée dans 330 villes de plus de 120 pays. Soutenue par l'un des plus grands réseaux Internet doté d'une capacité de 296 Tbps en périphérie, le cloud de connectivité de Cloudflare permet d'absorber, de bloquer, de filtrer et de limiter les menaces à l'échelle mondiale, au plus près de la source de l'attaque et non pas à proximité de vos origines.


Difficulté n° 2 : IA fantôme (Shadow AI) : consommation non autorisée de modèles d'IA publics

Soyons réalistes, les plateformes d'IA publiques ont permis aux utilisateurs de gagner du temps dans toutes les tâches, de la rédaction d'un mémo à celle d'un code complexe. Les organismes fédéraux et nationaux considèrent l'IA comme essentielle pour résoudre des problèmes sociaux complexes tels que la santé, l'accès aux services pour les citoyens et la sécurité de l'eau et de la nourriture. En l'absence de gouvernance, toutefois, les entreprises peuvent contribuer à la fuite d'ensembles de données régulés qui se retrouvent dans les données d'apprentissage de modèles de langage publics non sécurisés.

De la même manière que les entreprises ont utilisé des outils pour maîtriser la consommation d'applications cloud non autorisées ou « d'informatique fantôme (Shadow IT) », elles doivent désormais comprendre l'ampleur de la consommation de l'IA fantôme au sein de leurs organisations.

L'essor de « l'IA fantôme » fait les gros titres. D'après une étude de 3Gem portant sur plus de 11 500 collaborateurs du monde entier, 57 % des collaborateurs utilisent des outils d'IA générative publique au bureau au moins une fois par semaine. 39 % des personnes interrogées sont conscientes du risque de fuite de données sensibles lors de ces interactions.

Il arrive même que ces informations soient partagées à leur insu entre les modèles d'IA en raison de l'augmentation des modèles d'IA entraînés à partir de données produites par d'autres modèles, à distinguer du contenu provenant de sources traditionnelles.

Contrôle 1 : déterminer l'utilisation appropriée

Toute initiative, pour être globale, doit pouvoir déterminer quelles sont les utilisations acceptables des modèles d'IA publics et, plus précisément, identifier les rôles ayant besoin d'accéder à ces modèles. La mise en place de ces garde-fous constitue une première étape essentielle. En réalité, l'une des thématiques principales de la nouvelle législation en matière d'IA au sein des services gouvernementaux concerne l'utilisation appropriée de l'IA au sein des organismes et la désignation des modèles qui devraient être autorisés.

Contrôle 2 : déployer un accès contrôlé

Une fois ces aspects déterminés, les organismes doivent ensuite élaborer des contrôles pour l'application de ces politiques. Les principes de l'accès réseau Zero Trust (ZTNA) permettent le développement et l'application de ces politiques visant à restreindre les accès non autorisés.

Par exemple, vous pouvez décider de n'ouvrir l'accès aux modèles IA publics que pour les utilisateurs autorisés issus de groupes administratifs spécifiques. Même s'il s'agit d'un utilisateur autorisé, l'accès réseau Zero Trust permet des contrôles de niveau de sécurité supplémentaires, comme la vérification que les appareils de l'entreprise sont équipés de correctifs parfaitement à jour ou que l'appareil dispose d'agents de gestion des points de terminaison approuvés par le gouvernement avant d'autoriser l'accès.

Ainsi, les gouvernements peuvent appliquer des autorisations et restrictions d'accès à ces modèles d'IA publics pendant les opérations effectuées sur des actifs gouvernementaux.

Contrôle 3 : déterminer quelles données peuvent être divulguées aux plateformes d'IA

L'utilisation acceptable ne définit pas uniquement les utilisateurs pouvant accéder aux plateformes d'IA. Le gouvernement doit également comprendre les données publiées ou soumises dans les plateformes d'IA.

Même un élément aussi anodin qu'une note de service peut comporter des points de données non publics ou sensibles. Une fois ces points de données soumis à un LLM, il existe un risque que ces données soient exposées.

Des contrôles intégrés de prévention des pertes de données (DLP) doivent être mis au point pour garantir que les informations propriétaires, telles que du code d'application sensible ou encore les données des citoyens, ne fassent pas partie d'un ensemble de données d'apprentissage non sécurisé pour une plateforme d'IA.

Prenons l'exemple d'un « groupe de développeurs en IA » devant interagir avec des plateformes IA à la fois publiques et privées ou internes.

Un organisme peut autoriser la consommation de plateformes d'IA publiques (par exemple ChatGPT) et privées (par exemple, AWS BedRock). Seuls les utilisateurs approuvés et appartenant au « groupe de développement en IA » sont autorisés à accéder à ces plateformes. Pour les autres utilisateurs l'accès aux deux plateformes est bloqué.

Toutefois, même pour les utilisateurs approuvés du « groupe de développement en IA », la mise en œuvre d'une règle DLP permettant d'examiner les données publiées sur ces plateformes est appliquée afin de garantir qu'aucune donnée sensible non publique ne soit publiée ailleurs que sur la plateforme d'IA privée interne.


Protéger les électeurs

La gouvernance doit être envisagée avant tout du point de vue des politiques ou de la mission plutôt que du point de vue de la technologie. Pour comprendre le rôle de l'IA dans les programmes gouvernementaux, tant du point de vue des avantages que des risques, il convient que les dirigeants aient l'intention de nommer des équipes spécialisées capables d'évaluer les intersections potentielles entre les plateformes d'IA et la mission de l'organisme.

La technologie permet des interactions toujours plus nombreuses du public, donnant lieu à un ensemble de données riche et accessible que les plateformes d'IA peuvent utiliser pour entraîner leurs modèles. Les organisations peuvent décider d'une démarche plus prudente en bloquant tous les robots d'indexation jusqu'à ce que soient bien comprises les conséquences de ces interactions si elles sont autorisées. Pour les entités qui constatent que l'indexation légitime de propriétés publiques leur est avantageuse, la possibilité d'autoriser un accès légitime et contrôlé à des robots d'indexation IA vérifiés, tout en se protégeant contre les menaces, est un atout majeur dans l'environnement actuel.

Au sein de l'entreprise, la détermination des rôles et des tâches qui nécessitent un accès aux plateformes d'IA constitue une première étape essentielle pour anticiper un contexte de réglementation accru. L'association de ces besoins à un ensemble de contrôles qui déterminent qui obtient l'accès et à quel moment, ainsi que le contrôle des types de données publiées sur ces modèles, permettra à terme d'éliminer l'IA fantôme sans sacrifier les avantages tangibles qu'offrent ces technologies.

La gestion des bots et l'architecture Zero Trust de Cloudflare sont déterminantes pour aider les entités gouvernementales à réduire les risques dans le contexte d'une utilisation grandissante de l'IA. La protection des propriétés web publiques et la mise en place de mécanismes de contrôle visant à une consommation responsable de ces technologies sont des mesures de contrôle essentielles à considérer comme une priorité lors de l'élaboration de stratégies d'atténuation.

La promesse de l'IA pourrait être de résoudre de nombreux problèmes sociaux complexes (et le fait déjà d'une certaine manière). Cependant, les gouvernements doivent également protéger leurs électeurs pendant qu'ils explorent ces nouvelles technologies.

Cet article fait partie de notre série consacrée aux nouvelles tendances et évolutions susceptibles d'affecter les décideurs en matière de technologies d'aujourd'hui.



Approfondir le sujet.

Pour en savoir plus sur la manière dont l'architecture Zero Trust peut réduire les risques face à la généralisation de l'utilisation de l'IA, consultez le guide complet intitulé « Guide de déploiement de l'architecture Zero Trust ».

Auteur

Scottie Ray – @H20nly
Principal Solutions Architect, Cloudflare



Points clés

Cet article vous permettra de mieux comprendre les points suivants :

  • Le caractère émergent de la législation axée sur l'IA

  • Les deux principales difficultés liées à l'IA

  • Les contrôles qui aident les organismes à se conformer à la législation


Ressources associées :


Recevez un récapitulatif mensuel des tendances Internet les plus populaires !