¿Qué son las alucinaciones de la inteligencia artificial (IA)?

Las alucinaciones de IA son respuestas incorrectas o falsas dadas por modelos generativos de IA.

Objetivos de aprendizaje

Después de leer este artículo podrás:

  • Definir y proporcionar ejemplos de alucinaciones de IA
  • Describir algunas de las causas de las alucinaciones de la IA
  • Pasos a seguir para prevenir las alucinaciones de la IA

Copiar enlace del artículo

¿Qué son las alucinaciones de la inteligencia artificial (IA)?

Las alucinaciones de la inteligencia artificial (IA) son falsedades o imprecisiones en el resultado de un modelo generativo de IA. A menudo, estos errores están ocultos en contenidos que parecen lógicos o que son correctos. A medida que el uso de la IA generativa y los modelos lingüísticos de gran tamaño (LLM) se ha generalizado, se han observado muchos casos de alucinaciones de IA.

El término "alucinación" es metafórico: no es que los modelos de IA sufran de delirios como lo haría un ser humano con problemas mentales. En su lugar, producen resultados inesperados que no se corresponden con la realidad en respuesta a las indicaciones. Pueden identificar erróneamente patrones, malinterpretar el contexto o basarse en datos limitados o sesgados para obtener esos resultados inesperados.

Algunos ejemplos documentados de alucinaciones de IA incluyen:

  • Se pidió a un modelo de IA que escribiera sobre los resultados trimestrales de Tesla y elaboró un artículo coherente, pero con información financiera falsa
  • Un abogado usó un LLM para producir material de apoyo en un caso legal, pero el LLM generó referencias a otros casos legales que no existían
  • La herramienta de generación de imágenes Gemini de Google produjo regularmente imágenes históricamente inexactas durante un periodo de tiempo en 2024

Si bien la IA tiene una serie de casos de uso y aplicaciones del mundo real, en muchos casos la tendencia de los modelos de IA a alucinar significa que no se puede confiar completamente en ellos sin la supervisión humana.

¿Cómo funciona la AI generativa?

Todos los modelos de IA se componen de una combinación de datos de entrenamiento y un algoritmo. Un algoritmo, en el contexto de la IA, es un conjunto de reglas que establecen cómo un programa informático debe ponderar o valorar ciertos atributos. Los algoritmos de IA contienen miles de millones de parámetros, las reglas sobre cómo se deben valorar los atributos.

La IA generativa necesita datos de entrenamiento porque aprende al recibir millones (o miles de millones, o billones) de ejemplos. A partir de estos ejemplos, los modelos de IA generativa aprenden a identificar las relaciones entre los elementos de un conjunto de datos, normalmente mediante el uso de bases de datos vectoriales que almacenan los datos como vectores, lo que permite a los modelos cuantificar y medir las relaciones entre los elementos de datos. (un "vector" es una representación numérica de diferentes tipos de datos, incluidos tipos no matemáticos como palabras o imágenes).

Una vez que el modelo ha sido formado, sigue refinando sus resultados en función de las indicaciones que recibe. Sus desarrolladores también ajustarán el modelo para usos más específicos, y seguirán cambiando los parámetros del algoritmo, o utilizando métodos como la adaptación de bajo rango (LoRA) para ajustar rápidamente el modelo a un nuevo uso.

En conjunto, el resultado es un modelo que puede responder a las indicaciones de los humanos generando texto o imágenes basadas en las muestras que ha visto.

Sin embargo, las solicitudes humanas pueden variar mucho en complejidad y provocar un comportamiento inesperado del modelo, ya que es imposible prepararlo para cada solicitud posible. Además, el modelo puede malinterpretar o malinterpretar las relaciones entre conceptos y elementos, incluso después de un entrenamiento y ajustes exhaustivos. Las indicaciones inesperadas y las percepciones erróneas de los patrones pueden provocar alucinaciones de IA.

¿Qué hace que la IA tenga alucinaciones?

Fuentes de datos de entrenamiento: es difícil examinar los datos de entrenamiento porque los modelos de IA necesitan tanto que un humano no puede revisarlos todos. Los datos de entrenamiento no revisados pueden ser incorrectos o estar demasiado ponderados en una determinada dirección. Imaginemos un modelo de IA que se entrena para escribir tarjetas de felicitación, pero su conjunto de datos de entrenamiento acaba conteniendo principalmente tarjetas de cumpleaños, sin que sus desarrolladores lo sepan. Como resultado, podría generar mensajes alegres o divertidos en contextos inapropiados, como cuando se le pide que escriba una tarjeta de "Mejórate pronto".

Límites inherentes del diseño de IA generativa: los modelos de IA utilizan la probabilidad para "predecir" qué palabras o elementos visuales es probable que aparezcan juntos. El análisis estadístico puede ayudar a un ordenador a crear contenido de apariencia plausible, es decir, contenido que tiene una alta probabilidad de ser entendido por los humanos. Pero el análisis estadístico es un proceso matemático que puede pasar por alto algunos de los matices del lenguaje y el significado, lo que provoca alucinaciones.

Falta de experiencia directa del mundo físico: los programas de IA actuales no son capaces de detectar si algo es "verdadero" o "falso" en una realidad externa. Mientras que un ser humano podría, por ejemplo, realizar experimentos para determinar si un principio científico es verdadero o falso, actualmente la IA solo puede entrenarse con contenido preexistente, no directamente con el universo físico. Por lo tanto, tiene dificultades para distinguir entre datos precisos e inexactos, especialmente en sus propias respuestas.

Dificultades para entender el contexto: la IA solo analiza datos literales y puede no entender el contexto cultural o emocional, lo que lleva a respuestas irrelevantes y alucinaciones de IA. La sátira, por ejemplo, puede confundir a la IA (incluso los humanos suelen confundir la sátira con los hechos).

Sesgo: los datos de entrenamiento utilizados pueden generar un sesgo incorporado si el conjunto de datos no es lo suficientemente amplio. El sesgo puede simplemente sesgar los modelos de IA para que den ciertos tipos de respuestas, o incluso puede llevar a promover estereotipos raciales o de género.

Ataques al modelo: las personas malintencionadas pueden utilizar ataques de inyección de instrucciones para alterar la forma en que los modelos generativos de IA perciben las instrucciones y producen resultados. Un ejemplo con mucha difusión pública se produjo en 2016, cuando Microsoft lanzó un bot de chat llamado Tay que en un día empezó a generar contenido racista y sexista debido a que los usuarios de Twitter (ahora X) le proporcionaban información que distorsionaba sus respuestas. Los modelos de IA se han vuelto más sofisticados desde entonces, pero siguen siendo vulnerables a este tipo de ataques.

Sobreajuste: si un modelo de IA se entrena demasiado en su conjunto de datos de entrenamiento inicial, puede perder la capacidad de generalizar, detectar tendencias o sacar conclusiones precisas a partir de nuevos datos. También puede detectar patrones en sus datos de entrenamiento que no son realmente significativos, lo que lleva a errores que no son evidentes hasta que se le suministran nuevos datos. Estos escenarios se denominan "sobreajuste": los modelos se ajustan demasiado a sus datos de entrenamiento. Como ejemplo de sobreajuste, durante la pandemia de COVID-19, los modelos de IA entrenados en escaneos de pacientes con COVID en hospitales empezaron a detectar la fuente de texto que utilizaban los diferentes hospitales, y a tratar la fuente como un predictor del diagnóstico de COVID. En el caso de los modelos generativos de IA, el sobreajuste puede provocar alucinaciones.

¿Cómo pueden los desarrolladores de IA prevenir las alucinaciones de la IA?

Aunque es posible que los desarrolladores no puedan eliminar por completo las alucinaciones de la IA, hay medidas concretas que pueden adoptar para reducir la probabilidad de que se produzcan alucinaciones y otras imprecisiones.

  • Más y mejores datos: los grandes conjuntos de datos de una variedad de fuentes pueden ayudar a eliminar el sesgo y ayudar a los modelos a aprender a detectar tendencias y patrones en una variedad más amplia de datos.
  • Evita el sobreajuste: los desarrolladores deben intentar no formar demasiado un modelo de IA en un conjunto de datos.
  • Pruebas exhaustivas: los modelos de IA deben probarse en una variedad de contextos y con indicaciones inesperadas.
  • Uso de modelos diseñados para el caso de uso: un bot de chat de LLM, por ejemplo, puede no ser adecuado para responder consultas fácticas sobre investigación médica.
  • Perfeccionamiento continuo: incluso el modelo más ajustado probablemente tenga puntos ciegos. Los modelos de IA deben seguir aprendiendo de las indicaciones que reciben (con validación para ayudar a prevenir ataques de inyección de indicaciones).
  • Poner barreras a los bots de chat de IA generativa: un bot de chat de generación aumentada de recuperación (RAG) que tiene acceso a datos específicos de la empresa para mejorar las respuestas podría seguir teniendo alucinaciones. Los desarrolladores pueden implementar medidas de seguridad, como indicar al bot de chat que conteste "No tengo suficiente información para responder a eso" cuando no pueda encontrar la respuesta, en lugar de inventar una.

Descubre cómo Cloudflare for AI ayuda a los desarrolladores a crear y ejecutar modelos de IA desde cualquier parte del mundo. Y descubre cómo Cloudflare Vectorize permite a los desarrolladores generar y almacenar integraciones en una base de datos vectorial distribuida globalmente.