Los modelos lingüísticos de gran tamaño (LLM) son modelos de aprendizaje automático que pueden comprender y generar un texto en lenguaje humano. Funcionan al analizar conjuntos de datos masivos del lenguaje.
Después de leer este artículo podrás:
Contenido relacionado
¿Qué es inteligencia artificial (IA)?
¿Qué es el aprendizaje automático?
Base de datos vectorial
IA predictiva
¿Qué es IA generativa?
Suscríbete a theNET, el resumen mensual de Cloudflare sobre las ideas más populares de Internet.
Copiar el enlace del artículo
Un modelo lingüístico grande (LLM) es un tipo de programa de inteligencia artificial (IA) que puede reconocer y generar texto, entre otras tareas. Los LLM se capacitan con enormes conjuntos de datos — de ahí el adjetivo "grande". Los LLM se basan en el aprendizaje automático: en concreto, en un tipo de red neuronal llamado modelo transformador.
En términos más sencillos, un LLM es un programa informático al que se le han dado suficientes ejemplos para que sea capaz de reconocer e interpretar el lenguaje humano u otros tipos de datos complejos. Muchos LLM se entrenan con datos recopilados de Internet — miles o millones de gigabytes de texto. Sin embargo, la calidad de las muestras influye en lo bien que los LLM aprenderán el lenguaje natural, por lo que los programadores de un LLM pueden utilizar un conjunto de datos mejor seleccionado.
Los LLM utilizan un tipo de aprendizaje automático llamado aprendizaje profundo para entender cómo funcionan los caracteres, las palabras y las frases en conjunto. El aprendizaje profundo implica el análisis probabilístico de datos no estructurados, lo que finalmente permite al modelo de aprendizaje profundo reconocer distinciones entre las piezas de contenido sin intervención humana.
Luego, los LLM se entrenan aún más mediante la sintonización: se afinan o se ajustan a la tarea concreta que el programador quiere que hagan, como interpretar preguntas y generar respuestas o traducir texto de un idioma a otro.
Los LLM se pueden capacitar para realizar una serie de tareas. Uno de los usos más conocidos es su aplicación como IA generativa: cuando se da una indicación o se hace una pregunta, pueden producir texto como respuesta. El ChatGPT de LLM, disponible públicamente, por ejemplo, puede generar ensayos, poemas y otras formas textuales en respuesta a las entradas del usuario.
Cualquier conjunto de datos grande y complejo se puede utilizar para entrenar LLMs, incluidos los lenguajes de programación. Algunos LLM pueden ayudar a los programadores a escribir código. Pueden escribir funciones a solicitud —o, dado algún código como punto de partida, pueden terminar de escribir un programa. Los LLM también se pueden utilizar en:
Algunos ejemplos de LLM del mundo real incluyen ChatGPT (de OpenAI), Bard (Google), Llama (Meta) y Bing Chat (Microsoft). Copilot de GitHub es otro ejemplo, pero para codificación en lugar de lenguaje humano natural.
Una característica clave de los LLM es su capacidad para responder a las consultas impredecibles. Un programa informático tradicional recibe órdenes en su sintaxis aceptada o a partir de un determinado conjunto de entradas del usuario. Un videojuego tiene un conjunto finito de botones, una aplicación tiene un conjunto finito de cosas que un usuario puede pulsar o teclear y un lenguaje de programación se compone de declaraciones "si/entonces" precisas.
En cambio, un LLM puede responder al lenguaje humano natural y utilizar análisis de datos para responder a una pregunta o indicación no estructurada de forma que tenga sentido. Aunque un programa informático típico no reconocería una pregunta como "¿Cuáles son las cuatro mejores bandas de funk de la historia?", un LLM podría responder con una lista de cuatro de esas bandas y una defensa razonablemente convincente de por qué son las mejores.
Sin embargo, en cuanto a la información que proporcionan, los LLM solo pueden ofrecer la misma fiabilidad que los datos que ingieren. Si se les alimenta con información falsa, brindarán información falsa en respuesta a las consultas de los usuarios. Los LLM también pueden "alucinar" a veces: crean información falsa cuando son incapaces de dar una respuesta exacta. Por ejemplo, en 2022, el medio de noticias Fast Company le preguntó a ChatGPT sobre el anterior trimestre financiero de la empresa Tesla. Aunque ChatGPT proporcionó un artículo de noticias coherente como respuesta, gran parte de la información que contenía era inventada.
En términos de seguridad, las aplicaciones orientadas al usuario y basadas en LLM son tan propensas a los errores como cualquier otra aplicación. Los LLM también pueden manipularse mediante entradas maliciosas para que proporcionen determinados tipos de respuestas en lugar de otras — incluidas respuestas peligrosas o poco éticas. Por último, uno de los problemas de seguridad de los LLM es que los usuarios pueden cargar en estos datos seguros y confidenciales para aumentar su propia productividad. Sin embargo, los LLM utilizan las entradas que reciben para seguir entrenando sus modelos y no están diseñados para ser bóvedas seguras. Pueden exponer datos confidenciales en respuesta a consultas de otros usuarios.
En un nivel básico, los LLM están basados en el aprendizaje automático. El aprendizaje automático es un subconjunto de la IA, y se refiere a la práctica de alimentar un programa con grandes cantidades de datos para entrenar al programa para que identifique funciones de esos datos sin intervención humana.
Los LLM usan un tipo de aprendizaje automático llamado aprendizaje profundo. En esencia, los modelos de aprendizaje profundo se pueden entrenar para reconocer distinciones sin intervención humana, aunque suele ser necesario cierto ajuste humano.
El aprendizaje profundo usa la probabilidad para "aprender." Por ejemplo, en la frase "El rápido zorro marrón saltó sobre el perro perezoso," las letras "e" y "o" son las más comunes, ya que aparecen varias veces cada una. A partir de esto, un modelo de aprendizaje profundo podría concluir (correctamente) que estos caracteres se encuentran entre los que tienen más probabilidades de aparecer en un texto en español.
Siendo realistas, un modelo de aprendizaje profundo no puede concluir nada con base en una sola frase. Sin embargo, tras analizar billones de frases, podría aprender lo suficiente para predecir cómo terminar lógicamente una frase incompleta o incluso generar sus propias frases.
Para habilitar este tipo de aprendizaje profundo, los LLM se construyen sobre las redes neuronales. Al igual que el cerebro humano está construido de neuronas que se conectan y envían señales entre sí, una red neuronal artificial (normalmente abreviada como "red neuronal") está construida de los nodos de red que se conectan entre sí. Está compuesta por varias "capas": una capa de entrada, una capa de salida y una o varias capas intermedias. Las capas solo se transmiten información entre sí si sus propias salidas superan un determinado umbral.
El tipo específico de redes neuronales que se usan para los LLM se denominan modelos transformadores. Los modelos transformadores son capaces de aprender el contexto — algo especialmente importante para el lenguaje humano, que depende en gran medida del contexto. Los modelos transformadores utilizan una técnica matemática llamada autoatención para detectar formas sutiles en que los elementos de una secuencia se relacionan entre sí. Esto hace que entiendan mejor el contexto que otros tipos de aprendizaje automático. Les permite entender, por ejemplo, cómo se conecta el final de una frase con el principio y cómo se relacionan entre sí las frases de un párrafo.
Esto permite a los LLM interpretar el lenguaje humano, incluso cuando ese lenguaje es ambiguo o está mal definido, organizado en combinaciones que no han encontrado antes o contextualizado de nuevas formas. En cierto nivel, "entienden la semántica" en el sentido de que pueden asociar palabras y conceptos por su significado, al haberlos visto agrupados de esa forma millones o miles de millones de veces.
Para construir una aplicación LLM, los desarrolladores necesitan acceder fácilmente a múltiples conjuntos de datos, y necesitan lugares para que esos conjuntos de datos vivan. Tanto el almacenamiento en la nube como el almacenamiento local para estos fines pueden implicar inversiones en infraestructura fuera del alcance de los presupuestos de los desarrolladores. Además, los conjuntos de datos de entrenamiento suelen almacenarse en varios lugares, pero trasladar esos datos a una ubicación central puede dar lugar a enormes gastos de salida.
Afortunadamente, Cloudflare ofrece varios servicios para que los desarrolladores puedan empezar rápidamente a poner en marcha la aplicación LLM y otros tipos de IA. Vectorize es una base de datos vectorial distribuida globalmente para consultar datos almacenados en el almacenamiento de objetos sin coste de acceso (R2) o documentos almacenados en Workers Key Value. Combinado con la plataforma de desarrollo Cloudflare Workers AI, los desarrolladores pueden utilizar Cloudflare para empezar a experimentar rápidamente con sus propios LLM.