La inteligencia artificial generativa (AI) es un tipo de programa informático que puede producir contenidos en respuesta a instrucciones humanas.
Después de leer este artículo podrás:
Copiar enlace del artículo
La inteligencia artificial (AI) generativa es un tipo de modelo de aprendizaje profundo que puede producir texto, imágenes, código informático y contenido audiovisual en respuesta a instrucciones.
Los modelos generativos de AI se entrenan con grandes cantidades de datos sin procesar, generalmente los mismos tipos de datos para los que están diseñados. A partir de esos datos, aprenden a formar respuestas, cuando se les dan entradas arbitrarias, que es estadísticamente probable que sean relevantes para esas entradas. Por ejemplo, algunos modelos generativos de AI se capacitan con grandes cantidades de texto, con el fin de poder responder a las indicaciones escritas de forma aparentemente orgánica y original.
En términos más sencillos, la AI generativa puede reaccionar a las peticiones de forma muy parecida a los artistas o autores humanos, pero más rápidamente. Si el contenido que generan estos modelos puede considerarse "nuevo" o "original" es discutible, sí que es cierto que en muchos casos pueden igualar o superar ciertas capacidades creativas humanas.
Entre los modelos de AI generativa más populares están ChatGPT para la generación de texto y DALL-E para la generación de imágenes. Muchas organizaciones también han creado sus propios modelos.
La AI generativa es un tipo de aprendizaje automático, lo que significa que se basa en el análisis matemático para encontrar conceptos, imágenes o patrones relevantes. Luego utiliza este análisis para producir contenidos que estadísticamente es probable que sean similares o estén relacionados con la petición que recibió.
En concreto, la AI generativa se basa en un tipo de aprendizaje automático llamado aprendizaje profundo. Los modelos de aprendizaje profundo son lo suficientemente potentes como para aprender de datos no etiquetados. Utilizan un tipo de arquitectura informática llamada red neuronal. Estas arquitecturas se componen de varios nodos que transmiten datos entre sí, de forma similar a como lo hace el cerebro humano a través de las neuronas. Las redes neuronales son capaces de realizar tareas muy sofisticadas y refinadas.
Los modelos generativos de AI que pueden interpretar el lenguaje necesitan comprender algo más que palabras sueltas. Deben ser capaces de interpretar frases, párrafos y documentos enteros. Los primeros modelos de aprendizaje automático tenían dificultades para comprender frases enteras y "olvidaban" el principio de una frase cuando llegaban al final, lo que daba lugar a interpretaciones erróneas.
Los modelos modernos de AI generativa utilizan un tipo específico de redes neuronales llamadas transformadoras. Estos utilizan una capacidad llamada autoatención para detectar cómo se conectan los elementos de una secuencia. Los transformadores permiten a los modelos generativos de AI hacer cosas como procesar y contextualizar grandes bloques de texto en lugar de sólo palabras y frases sueltas.
Para funcionar bien, los modelos generativos de AI tienen que alimentarse con una gran cantidad de datos: más datos, en la mayoría de los casos, de los que un humano podría procesar a lo largo de su vida. Por ejemplo, el gran modelo lingüístico ChatGPT se entrenó con millones de documentos. Un generador de imágenes puede entrenarse con millones de imágenes, y un generador de código con miles de millones de líneas de código.
Estos datos de entrenamiento se almacenan en una base de datos vectorial. En una base de datos de este tipo, los puntos de datos se almacenan como vectores, es decir, como un conjunto de coordenadas dentro de un campo multidimensional. Del mismo modo que la latitud y la longitud permiten a alguien que mira un mapa encontrar lugares cercanos, almacenar datos como vectores permite a los modelos de aprendizaje automático encontrar "puntos cercanos" de datos. Esto permite a los modelos hacer asociaciones y comprender el contexto de una palabra, una imagen, un sonido o cualquier otro tipo de contenido.
Una vez que el modelo de AI generativa alcanza un cierto nivel de ajuste fino, no necesita tantos datos para producir un resultado. Por ejemplo, los modelos de AI generadores de voz pueden entrenarse con miles de horas de grabaciones vocales. Pero una vez afinados, algunos modelos sólo necesitan unos segundos de una grabación de muestra para imitar con realismo la voz de alguien.
Los modelos generativos de AI son cada vez más populares, ya que ofrecen una serie de ventajas potenciales. Estas prestaciones incluyen, entre otras:
Sin embargo, la AI generativa tiene sus inconvenientes:
"Gran modelo lingüístico" (LLM) es el término técnico para los modelos generativos de AI que procesan el lenguaje y pueden generar texto, incluyendo tanto las lenguas habladas por humanos como los lenguajes de programación. Entre los LLM más populares están ChatGPT (de OpenAI), Llama (de Meta), Bard (de Google), Copilot (de GitHub) y Bing Chat (de Microsoft).
Los generadores de imágenes AI funcionan de forma similar a los LLM, pero para imágenes en lugar de texto. DALL-E y Midjourney son dos ejemplos de populares generadores de imágenes basados en AI generativa.
Cloudflare permite a desarrolladores y empresas crear sus propios modelos generativos de AI. Cloudflare ofrece Vectorize para que los desarrolladores puedan generar y almacenar incrustaciones en la red global de Cloudflare a partir de sus propios datos, y Cloudflare Workers AI para ejecutar tareas de AI generativa en una red global de GPU. Más información sobre cómo Cloudflare hace posible la próxima generación de AI generativa.