¿Qué son las alucinaciones de la inteligencia artificial (IA)?

Las alucinaciones de IA son respuestas incorrectas o falsas que dan los modelos de IA generativa.

Metas de aprendizaje

Después de leer este artículo podrás:

  • Definir y brindar ejemplos de alucinaciones de IA
  • Describir algunas de las causas de las alucinaciones de la IA
  • Describir los pasos para evitar las alucinaciones de la IA

Copiar el enlace del artículo

¿Qué son las alucinaciones de la inteligencia artificial (IA)?

Las alucinaciones de la inteligencia artificial (IA) son falsedades o imprecisiones en el resultado de un modelo de IA generativa . A menudo, estos errores están ocultos dentro de contenido que parece lógico o que es correcto. A medida que se extiende el uso de la IA generativa y de los modelos lingüísticos de gran tamaño (LLM) , se observan muchos casos de alucinaciones de IA.

El término "alucinación" es metafórico: los modelos de IA en realidad no sufren los delirios que podría tener un ser humano con problemas mentales. Lo que hacen es producir resultados inesperados que no se corresponden con la realidad en respuesta a las indicaciones. Pueden identificar erróneamente patrones, malinterpretar el contexto o basarse en datos limitados o sesgados para obtener esos resultados inesperados.

Estos son algunos ejemplos documentados de alucinaciones de IA:

  • Se le pidió a un modelo de IA que escribiera sobre los resultados trimestrales de Tesla y produjo un artículo coherente pero con información financiera falsa
  • Un abogado usó un LLM para producir material de respaldo en una causa judicial, pero el LLM generó referencias a otras causas judiciales que no existían
  • La herramienta de generación de imágenes Gemini de Google produjo de manera regular imágenes históricamente inexactas durante un periodo de tiempo en 2024

Si bien la IA tiene una serie de casos de uso y aplicaciones del mundo real, en muchos casos la tendencia de los modelos de IA a alucinar significa que no se puede confiar completamente en ellos sin la supervisión humana.

¿Cómo funciona la AI generativa?

Todos los modelos de IA se componen de una combinación de datos de entrenamiento y un algoritmo. Un algoritmo, en el contexto de la IA, es un conjunto de reglas que establecen cómo un programa informático debe ponderar o valorar ciertos atributos. Los algoritmos de IA contienen miles de millones de parámetros, las reglas sobre cómo se deben valorar los atributos.

La IA generativa necesita datos de entrenamiento, ya que aprende al recibir millones (o miles de millones o billones) de ejemplos. A partir de estos ejemplos, los modelos de IA generativa aprenden a identificar las relaciones entre los elementos de un conjunto de datos, por lo general, mediante el uso de bases de datos vectoriales que almacenan datos como vectores, lo que permite a los modelos cuantificar y medir las relaciones entre los elementos de datos. (Un "vector" es una representación numérica de diferentes tipos de datos, lo que incluye tipos no matemáticos como palabras o imágenes).

Una vez que el modelo fue entrenado, sigue refinando sus resultados en función de las indicaciones que recibe. Sus desarrolladores también ajustarán el modelo para usos más específicos, cambiando continuamente los parámetros del algoritmo o empleando métodos como la adaptación de bajo rango (LoRA) para ajustar rápidamente el modelo a un nuevo uso.

En conjunto, el resultado es un modelo que puede responder a las indicaciones de los humanos generando texto o imágenes en función de las muestras que ha visto.

Sin embargo, las solicitudes humanas pueden variar mucho en cuanto s complejidad y causar un comportamiento inesperado del modelo, ya que es imposible prepararlo para cada solicitud posible. Además, el modelo puede confundir o malinterpretar las relaciones entre los conceptos y los elementos, incluso después de un amplio entrenamiento y ajuste. Las indicaciones inesperadas y las percepciones erróneas de los patrones pueden provocar alucinaciones de IA.

¿Qué hace que la IA tenga alucinaciones?

Fuentes de datos de entrenamiento: es difícil examinar los datos de entrenamiento porque los modelos de IA necesitan tanto que un humano no puede revisarlos a todos. Los datos de entrenamiento no revisados pueden ser incorrectos o estar demasiado influenciados hacia una dirección determinada. Imagina un modelo de IA que está entrenado para escribir tarjetas de felicitación, pero su conjunto de datos de entrenamiento termina conteniendo principalmente tarjetas de cumpleaños, sin que sus desarrolladores lo sepan. Como resultado, podría generar mensajes alegres o divertidos en contextos inapropiados, como cuando se le pide que escriba una tarjeta de "Mejórate pronto".

Límites inherentes del diseño de IA generativa: los modelos de IA emplean la probabilidad para "predecir" qué palabras o elementos visuales es probable que aparezcan juntos. El análisis estadístico puede ayudar a una computadora a crear contenido aparentemente razonable, contenido que tiene una alta probabilidad de ser entendido por los humanos. Pero el análisis estadístico es un proceso matemático que puede pasar por alto algunos de los matices del lenguaje y el significado, lo que genera alucinaciones.

Falta de experiencia directa del mundo físico: los programas de IA actuales no pueden detectar si algo es "verdadero" o "falso" en una realidad externa. Si bien un ser humano podría, por ejemplo, hacer experimentos para determinar si un principio científico es verdadero o falso, la IA actualmente solo puede entrenarse a sí misma con respecto a contenido preexistente, no directamente en el universo físico. Por lo tanto, lucha por distinguir entre datos precisos e inexactos, especialmente en sus propias respuestas.

Dificultad para comprender el contexto: la IA solo analiza datos literales y es posible que no comprenda el contexto cultural o emocional, lo que puede generar respuestas irrelevantes y alucinaciones de IA. La sátira, por ejemplo, puede confundir a la IA (incluso los humanos suelen confundir la sátira con los hechos).

Sesgo: los datos de entrenamiento utilizados pueden generar un sesgo incorporado si el conjunto de datos no es lo suficientemente amplio. El sesgo puede simplemente sesgar los modelos de IA para dar ciertos tipos de respuestas, o incluso puede promover estereotipos raciales o de género.

Ataques al modelo: las personas malintencionadas pueden usar ataques de inyección rápida para alterar la forma en que los modelos de IA generativa perciben las indicaciones y producen resultados. Hubo un ejemplo muy mediático en 2016, cuando Microsoft lanzó un bot de chat, Tay, que en un día comenzó a generar contenido racista y sexista debido a que los usuarios de Twitter (ahora X) le brindaban información que distorsionaba sus respuestas. Los modelos de IA se volvieron más sofisticados desde entonces, pero aún son vulnerables a este tipo de ataques.

Sobreajuste: si un modelo de IA se entrena demasiado en su conjunto de datos de entrenamiento inicial, puede perder la capacidad de generalizar, detectar tendencias o sacar conclusiones precisas a partir de nuevos datos. También puede detectar patrones en sus datos de entrenamiento que en realidad no son significativos, lo que genera errores que no son evidentes hasta que se alimentan con nuevos datos. Estos escenarios se denominan "sobreajuste": los modelos se ajustan demasiado a sus datos de entrenamiento. Como ejemplo de sobreajuste, durante la pandemia de COVID-19, podemos citar los modelos de IA entrenados en escaneos de pacientes con COVID en hospitales que comenzaron a detectar la fuente de texto que usaban los diferentes hospitales y a tratar a la fuente como un predictor del diagnóstico de COVID. Para los modelos de IA generativa, el sobreajuste puede provocar alucinaciones.

¿Cómo pueden los desarrolladores de IA evitar las alucinaciones de IA?

Si bien es posible que los desarrolladores no puedan eliminar por completo las alucinaciones de IA, se pueden tomar medidas concretas para reducir la probabilidad de que se produzcan alucinaciones y otras imprecisiones.

  • Usar más y mejores datos: los grandes conjuntos de datos de una variedad de fuentes pueden ayudar a eliminar el sesgo y ayudar a los modelos a detectar tendencias y patrones en una variedad más amplia de datos.
  • Evitar el sobreajuste: los desarrolladores deben tratar de no entrenar demasiado un modelo de IA en un conjunto de datos.
  • Hacer pruebas exhaustivas: los modelos de IA deben ser probados en una variedad de contextos y con indicaciones inesperadas.
  • Usar modelos diseñados para el caso de uso: un chatbot de LLM, por ejemplo, puede no ser adecuado para responder consultas objetivas sobre investigación médica.
  • Perfeccionamiento continuo: es probable que incluso el modelo más ajustado tenga puntos ciegos. Los modelos de IA deben seguir aprendiendo de las indicaciones que reciben (con validación para ayudar a prevenir ataques de inyección de solicitudes).
  • Poner barreras a los bots de chat de IA generativa: un bot de chat de generación aumentada de recuperación (RAG) que tiene acceso a datos específicos de la empresa para mejorar las respuestas podría seguir teniendo alucinaciones. Los desarrolladores pueden implementar medidas de seguridad, como indicar al bot de chat que conteste "No tengo suficiente información para responder a eso" cuando no pueda encontrar la respuesta, en lugar de inventar una.

Conoce cómo Cloudflare para IA ayuda a los desarrolladores a crear y ejecutar modelos de IA desde cualquier parte del mundo. Y conoce cómo Cloudflare Vectorize permite a los desarrolladores generar y almacenar integraciones en una base de datos vectorial distribuida a nivel global.