O que são alucinações de inteligência artificial (IA)?

As alucinações de IA são respostas incorretas ou falsas fornecidas por modelos de IA generativa.

Objetivos de aprendizado

Após ler este artigo, você será capaz de:

  • Definir e fornecer exemplos de alucinações de IA
  • Descrever algumas das causas das alucinações de IA
  • Descrever etapas para prevenir as alucinações de IA

Copiar o link do artigo

O que são alucinações de inteligência artificial (IA)?

As alucinações de inteligência artificial (IA) são falsidades ou imprecisões na saída de um modelo de IA generativa . Muitas vezes, esses erros ficam ocultos em conteúdos que parecem lógicos ou corretos. À medida que o uso de IA generativa e modelos de linguagem grande (LLMs) se tornou mais difundido, muitos casos de alucinações de IA foram observados.

O termo "alucinação" é metafórico, os modelos de IA não sofrem de ilusões como pode sofrer um humano com problemas mentais. Em vez disso, eles produzem resultados inesperados que não correspondem à realidade em resposta aos prompts. Eles podem identificar padrões, interpretar mal o contexto ou utilizar dados limitados ou tendenciosos para obter resultados inesperados.

Alguns exemplos documentados de alucinações de IA incluem:

  • Foi solicitado que um modelo de IA escrevesse sobre os resultados trimestrais da Tesla ele produziu um artigo coerente, mas com informações financeiras falsas
  • Um advogado usou um LLM para produzir material de apoio em um caso jurídico, mas o LLM gerou referências a outros casos jurídicos que não existiam
  • A ferramenta de geração de imagens Gemini do Google produzia regularmente imagens historicamente imprecisas durante um período em 2024

Embora a IA tenha vários casos de uso e aplicações no mundo real, em muitos casos, a tendência dos modelos de IA de alucinar significa que não podem ser totalmente confiáveis sem a supervisão humana.

Como funciona a IA generativa?

Todos os modelos de IA são compostos de uma combinação de dados de treinamento e um algoritmo. Um algoritmo, no contexto da IA, é um conjunto de regras que estabelecem como um programa de computador deve ponderar ou avaliar certos atributos. Os algoritmos de IA contêm bilhões de parâmetros, as regras sobre como os atributos devem ser avaliados.

A IA generativa precisa de dados de treinamento porque aprende ao ser alimentada com milhões (ou bilhões, ou trilhões) de exemplos. Com esses exemplos, os modelos de IA generativa aprendem a identificar as relações entre itens em um conjunto de dados, normalmente usando bancos de dados vetoriais que armazenam dados como vetores, permitindo que os modelos quantifiquem e meçam as relações entre os itens de dados. (Um "vetor" é uma representação numérica de diferentes tipos de dados, incluindo tipos não matemáticos, como palavras ou imagens.)

Após o treinamento, o modelo continua refinando seus resultados com base nos prompts que recebe. Seus desenvolvedores também vão ajustar o modelo para usos mais específicos, continuando a alterar os parâmetros do algoritmo ou usando métodos como adaptação de baixa classificação (LoRA) para ajustar rapidamente o modelo a um novo uso.

Juntos, o resultado é um modelo que pode responder aos prompts de humanos gerando texto ou imagens com base nas amostras que viu.

No entanto, os prompts humanos podem variar muito em complexidade e causar um comportamento inesperado por parte do modelo, uma vez que é impossível prepará-lo para todos os prompts possíveis. Além disso, o modelo pode não entender ou interpretar mal as relações entre conceitos e itens, mesmo após amplo treinamento e ajustes. Prompts inesperados e percepções errôneas de padrões podem levar a alucinações de IA.

O que faz com que a IA tenha alucinações?

Fontes de dados de treinamento: é difícil verificar dados de treinamento porque os modelos de IA precisam de tantos dados que um humano não consegue analisar tudo. Dados de treinamento não analisados podem estar incorretos ou muito ponderados em uma determinada direção. Imagine um modelo de IA que é treinado para escrever cartões de cumprimentos, mas seu conjunto de dados de treinamento acaba contendo principalmente cartões de aniversário, sem o conhecimento de seus desenvolvedores. Como resultado, ele pode gerar mensagens felizes ou divertidas em contextos inadequados, como quando solicitado a escrever um cartão "Melhore logo".

Limites inerentes do design de IA generativa: os modelos de IA usam a probabilidade para "prever" quais palavras ou elementos visuais provavelmente aparecerão juntos. A análise estatística pode ajudar um computador a criar um conteúdo aparentemente plausível, um conteúdo que tem uma alta probabilidade de ser entendido por humanos. Mas a análise estatística é um processo matemático que pode perder algumas das nuanças de linguagem e significado, resultando em alucinações.

Falta de experiência direta do mundo físico: os programas de IA atuais não são capazes de detectar se algo é "verdadeiro" ou "falso" em uma realidade externa. Enquanto um ser humano poderia, por exemplo, realizar experimentos para determinar se um princípio científicos é verdadeiro ou falso, a IA atualmente só pode se treinar com conteúdo preexistente, não diretamente no universo físico. Portanto, ela se esforça para dizer a diferença entre dados precisos e imprecisos, especialmente em suas próprias respostas.

Esforço para entender o contexto: a IA analisa apenas dados literais e pode não entender o contexto cultural ou emocional, levando a respostas irrelevantes e alucinações de IA. A sátira, por exemplo, pode confundir a IA (até mesmo os humanos costumam confundir a sátira com o fato).

Viés: os dados de treinamento usados podem levar a um viés integrado se o conjunto de dados não for amplo o suficiente. O viés pode simplesmente distorcer os modelos de IA no sentido de dar certos tipos de respostas, ou pode até mesmo levar à promoção de esteretipos raciais ou de gênero.

Ataques ao modelo: pessoas maliciosas podem usar ataques de injeção de prompt para alterar a forma como os modelos de IA generativa percebem os prompts e produzem resultados. Um exemplo altamente público ocorreu em 2016, quando a Microsoft lançou um chatbot, Tay, que em um dia começou a gerar conteúdo racial e sexualista devido aos usuários do Twitter (agora X) que o alimentaram com informações que distorceram suas respostas. Os modelos de IA se tornaram mais sofisticados desde então, mas ainda são vulneráveis a esses ataques.

Overfitting: se um modelo de IA for treinado demais em seu conjunto de dados de treinamento inicial, ele poderá perder a capacidade de generalizar, detectar tendências ou tirar conclusões precisas a partir de novos dados. Ele também pode detectar padrões em seus dados de treinamento que não são realmente significativos, levando a erros que não são aparentes até que sejam alimentados com novos dados. Esses cenários são chamados de "overfitting": os modelos se ajustam muito estreitamente aos seus dados de treinamento. Como exemplo de overfitting, durante a pandemia da COVID-19, os modelos de IA treinados em varreduras de pacientes com COVID em hospitais começaram a captar a fonte de texto que os diferentes hospitais usavam e a tratar a fonte como um previsor de diagnóstico de COVID. No caso dos modelos de IA generativa, o overfitting pode causar alucinações.

Como os desenvolvedores de IA podem evitar as alucinações de IA?

Embora os desenvolvedores possam não ser capazes de eliminar completamente as alucinações de IA, há medidas concretas que podem tomar para tornar as alucinações e outras imprecisões menos prováveis.

  • Mais dados e dados melhores: grandes conjuntos de dados de uma variedade de fontes podem ajudar a eliminar vieses e ajudar os modelos a aprenderem a detectar tendências e padrões em uma variedade mais ampla de dados.
  • Evitar o overfitting: os desenvolvedores devem tentar não treinar muito um modelo de IA em um conjunto de dados.
  • Testes extensivos: os modelos de IA devem ser testados em vários contextos e com prompts inesperados.
  • Usar modelos projetados para o caso de uso: um chatbot de LLM, por exemplo, pode não ser adequado para responder a consultas factuais sobre pesquisas médicas.
  • Refinamento contínuo: mesmo o modelo mais bem ajustado provavelmente terá pontos cegos. Os modelos de IA devem continuar a aprender com as solicitações que recebem (com validação em vigor para ajudar a evitar ataques de injeção de prompts).
  • Colocar proteções para chatbots de IA generativa: um chatbot de geração aumentada de recuperação (RAG) que tem acesso a dados específicos da empresa para aprimorar respostas ainda pode ter alucinações. Os desenvolvedores podem implementar proteções, como instruir o chatbot a retornar "Não tenho informações suficientes para responder a isso" quando não conseguir encontrar a resposta, em vez de criar uma.

Saiba como a Cloudflare para IA ajuda os desenvolvedores a criar e executar modelos de IA em qualquer lugar do mundo. E descubra como o Cloudflare Vectorize permite que os desenvolvedores gerem e armazenem embeddings em um banco de dados vetorial distribuído globalmente.