Les hallucinations de l'IA sont des réponses incorrectes ou fausses données par les modèles d'IA générative.
Cet article s'articule autour des points suivants :
Copier le lien de l'article
Les hallucinations liées à l'intelligence artificielle (IA) sont des fausses informations ou des inexactitudes concernant le résultat d'un modèle d' IA générative . Souvent, ces erreurs sont dissimulées dans du contenu qui semble logique ou qui est par ailleurs correct. Alors que l'utilisation de l'IA générative et des grands modèles de langage (LLM) s'est généralisée, de nombreux cas d'hallucinations de l'IA ont été observés.
Le terme « hallucination » désigne une métaphore : les modèles d'IA ne souffrent pas d'hallucinations à proprement parler comme le ferait un humain désorienté. Il s'agit plutôt de résultats inattendus qui ne correspondent pas à la réalité en réponse à des invites. Ils peuvent mal identifier des modèles, mal comprendre le contexte ou puiser dans des données limitées ou biaisées pour obtenir ces résultats inattendus.
Voici quelques exemples documentés d'hallucinations de l'IA :
L'IA contribue à un certain nombre de scénarios d'utilisation et d'applications dans la réalité, toutefois dans de nombreux cas, la tendance à halluciner des modèles d'IA va à l'encontre d'une entière fiabilité sans surveillance humaine.
Tous les modèles d'IA sont constitués d'une combinaison de données d'entraînement et d'un algorithme. Un algorithme, dans le contexte de l'IA, est un ensemble de règles qui régissent la manière dont un programme informatique doit pondérer ou évaluer certains attributs. Les algorithmes d'IA contiennent des milliards de paramètres ; les règles régissant la manière dont les attributs doivent être évalués.
L'IA générative a besoin de données d'entraînement, car elle apprend en s'appuyant sur des millions (ou des milliards, voire des trillions) d'exemples. À partir de ces exemples, les modèles d'IA générative apprennent à identifier le rapport entre les éléments d'un ensemble de données, généralement en utilisant des bases de données vectorielles qui stockent les données sous forme de vecteurs, ce qui permet aux modèles de quantifier et de mesurer les rapports entre les éléments de données. (Un « vecteur » est une représentation numérique de différents types de données, y compris des types non mathématiques comme des mots ou des images).
Une fois le modèle entraîné, il continue d'affiner ses résultats en fonction des invites qu'il reçoit. Ses développeurs pourront également affiner le modèle pour des utilisations plus spécifiques, en continuant à modifier les paramètres de l'algorithme ou en faisant appel à des méthodes telles que l'adaptation à bas classement (LoRA) pour ajuster rapidement le modèle à une nouvelle utilisation.
Le tout donne comme résultat un modèle capable de répondre aux invites des humains avec la génération de texte ou d'images à partir des échantillons qu'il a observés.
Cependant, la complexité des invites humaines peut varier considérablement et aboutir à un comportement inattendu du modèle ; il est en effet impossible de le préparer pour chaque invite possible. Enfin, il peut arriver que le modèle comprenne ou interprète mal le rapport entre les concepts et les éléments, même après un entraînement et des réglages précis. Les invites inattendues et les défauts de perception des modèles peuvent conduire à des hallucinations de l'IA.
Sources de données d'entraînement : il est difficile de procéder à un examen des données d'entraînement, car les modèles d'IA en ont besoin en des quantités telles qu'un humain ne peut pas les passer en revue. Les données d'entraînement non vérifiées peuvent être incorrectes ou pondérées trop fortement dans une certaine direction. Imaginez un modèle d'IA entraîné à écrire des cartes de vœux, mais que son ensemble de données d'apprentissage contient essentiellement des cartes d'anniversaire, ce que les développeurs ignorent. Il peut en résulter des messages heureux ou amusants dans des contextes inappropriés, comme dans le cas d'une invite pour écrire une carte de vœux de bon rétablissement.
Limites inhérentes à la conception de l'IA générative : les modèles d'IA s'appuient sur la probabilité pour « prédire » les mots ou les éléments visuels susceptibles d'apparaître ensemble. L'analyse statistique aide un ordinateur à créer du contenu en apparence plausible ; du contenu qui a une forte probabilité d'être compris par des humains. Mais l'analyse statistique est un processus mathématique qui peut passer à côté de certaines nuances du langage et du sens, donnant ainsi lieu à des hallucinations.
Absence d'expérience directe du monde physique : les programmes d'IA actuels ne sont pas capables de détecter si une information est « vraie » ou « fausse » dans une réalité externe. L' humain peut, par exemple, mener des expériences pour déterminer si un principe scientifique est vrai ou faux, l'IA quant à elle ne peut actuellement s'entraîner qu'à partir d'un contenu préexistant, et non directement dans l'univers physique. Elle a donc du mal à faire la différence entre les données exactes et les données inexactes, en particulier dans ses propres réponses.
Difficulté à comprendre le contexte : l'IA n'examine que des données littérales et peut ne pas comprendre le contexte culturel ou affectif, c'est pourquoi ses réponses ne sont pas toujours pertinentes et il lui arrive d'halluciner. La satire, par exemple, peut dérouter l'IA (il arrive même à des humains de la confondre avec les faits).
Biais : les données d'entraînement utilisées peuvent nourrir un biais intrinsèque si l'ensemble de données n'est pas assez large. Le biais peut simplement orienter les modèles d'IA et les amener à apporter certains types de réponses ; il peut même conduire à la promotion de stéréotypes raciaux ou sexistes.
Attaques visant le modèle : des personnes malveillantes peuvent utiliser des attaques par injection d'invites pour modifier la manière dont les modèles d'IA générative perçoivent les invites et produisent des résultats. Une situation de ce type a fait beaucoup de bruit en 2016, lorsque Microsoft a lancé un chatbot, Tay, qui en l'espace d'une journée a commencé à générer du contenu raciste et sexiste, à cause d'utilisateurs de Twitter (aujourd'hui X) qui lui avaient transmis des informations ayant déformé ses réponses. Depuis, les modèles d'IA sont devenus plus sophistiqués, mais ils restent vulnérables à de telles attaques.
Surajustement : si un modèle d'IA est trop entraîné sur son ensemble de données d'entraînement initial, il peut perdre sa capacité à généraliser, à détecter des tendances ou à tirer des conclusions précises à partir de nouvelles données. Il peut également détecter, dans ses données d'entraînement, des logiques qui ne sont pas réellement significatives, conduisant ainsi à des erreurs qui restent inaperçues jusqu'à ce que de nouvelles données soient reçues. Ces scénarios sont appelés « surajustement » : les modèles sont trop proches de leurs données d'entraînement. C'est ce qui s'est produit pendant la pandémie de COVID-19 tandis que les modèles d'IA entraînés à partir d'analyses des imageries des patients atteints de COVID-19 dans les hôpitaux ont commencé à relever la police de texte utilisée par les différents hôpitaux pour finir par la considérer comme un indicateur du diagnostic de la COVID-19. Pour les modèles d'IA générative, le surajustement peut conduire à des hallucinations.
Les développeurs ne seront peut-être pas en mesure d'éliminer complètement les hallucinations de l'IA, mais il existe des mesures concrètes à prendre pour en atténuer les risques, qu'il s'agisse d'hallucination ou d'inexactitudes.
Découvrez comment Cloudflare for AI aide les développeurs à concevoir et exécuter des modèles d'IA partout dans le monde. Découvrez également comment Cloudflare Vectorize permet aux développeurs de générer et de stocker des intégrations au sein d'une base de données vectorielle répartie dans le monde entier.