¿Qué es un lago de datos?

Los lagos de datos almacenan grandes cantidades de datos en un formato no jerárquico.

Objetivos de aprendizaje

Después de leer este artículo podrás:

  • Definir "lago de datos"
  • Comprender cómo se utilizan los lagos de datos en el almacenamiento de objetos
  • Contrastar los lagos de datos frente a los almacenes de datos

Copiar enlace del artículo

¿Qué es un lago de datos?

Un lago de datos es un tipo de repositorio que almacena datos en su formato natural (o crudo). También llamados "repositorios de datos", los lagos de datos son una característica del almacenamiento de objetos, un sistema de almacenamiento basado en la nube diseñado para manejar grandes cantidades de datos estructurados y no estructurados.

La estructura no jerárquica de los lagos de datos los convierte en una opción flexible y escalable en comparación con los sistemas de almacenamiento más tradicionales, basados en archivos. Sin embargo, organizar y recuperar datos de los lagos de datos puede ser lento y costoso, debido a su diseño organizativo y a la compleja tarificación de la salida de datos.

¿Cómo almacenan los datos los lagos de datos?

Para entender cómo almacenan los datos los lagos de datos, es importante comprender primero cómo funciona el almacenamiento de objetos. A diferencia del almacenamiento tradicional basado en archivos, en el que los datos se almacenan en una jerarquía de carpetas y archivos, el almacenamiento de objetos reúne datos individuales (u objetos) en la misma ubicación y los etiqueta con metadatos personalizables.

Estos metadatos -la información utilizada para identificar un archivo (p. ej. nombre, tipo, tamaño o identificadores únicos)- ayuda a los usuarios o a la aplicación a localizar y recuperar datos sin necesidad de seguir una ruta específica de carpeta a carpeta. Como los lagos de datos están diseñados para contener grandes cantidades de datos, los metadatos asignados a cada objeto pueden ser muy detallados, lo que ayuda a acelerar la recuperación.

Para ilustrar la diferencia entre el almacenamiento de datos jerárquico y no jerárquico, imagina que Bob quiere almacenar miles de discos de vinilo. Con un sistema de almacenamiento jerárquico, podía ordenar los discos en grandes contenedores (o carpetas) clasificados por género musical. Esto le permitiría localizar rápidamente cualquier álbum, pero podría quedarse sin espacio en una papelera si adquiere más discos de ese género. Este método es similar al almacenamiento basado en archivos, en el que los datos deben organizarse y almacenarse en una ubicación específica.

En cambio, un sistema de almacenamiento no jerárquico permitiría a Bob colocar todos sus registros en una sala (o lago de datos), en el orden que él quisiera. Cada disco se etiquetaría con una etiqueta indicando su género. Este método ralentizaría el proceso de identificación de un único registro, pero permitiría a Bob añadir muchos más registros a su colección sin necesidad de almacenarlos en una papelera específica. Este método es similar al almacenamiento de objetos, en el que se pueden almacenar grandes cantidades de datos en la misma ubicación.

Para una explicación en profundidad de este proceso, consulta ¿Qué es el almacenamiento de objetos?

¿Qué es la arquitectura del lago de datos?

La arquitectura del lago de datos se refiere a los procesos y herramientas utilizados para almacenar, transformar, acceder y proteger los datos dentro de un lago de datos. Aunque esta arquitectura puede estar ubicada en la nube o localmente, suele compartir varios de los siguientes componentes:

  • Las fuentes de datos: el formato original de los datos, ya sean estructurados (es decir, datos que se ajustan a una estructura tabular, como las bases de datos SQL), semiestructurados (es decir, datos que no encajan fácilmente en una estructura tabular, como los archivos HTML), o no estructurados (p. ej. vídeos, archivos de audio e imágenes)
  • Extracción de datos: extraer, cargar y transformar (ELT) es el proceso de varios pasos para trasladar los datos desde su fuente original a la zona bruta del lago de datos, y luego alterarlos para hacerlos más utilizables.
  • Ingestión y almacenamiento de datos: el método por el que se añaden datos a un lago de datos -o bien ingestión a tiempo real (añadir datos a medida que se adquieren) o bien ingestión por lotes (añadir grupos de datos a intervalos regulares). Sea cual sea el método de ingestión, todos los datos se almacenan inicialmente en la sección de datos brutos del almacén; en otras palabras, se añaden a un lago de datos en su formato original y sin procesar.
  • Persistencia y catalogación de datos: el proceso de añadir metadatos a los datos brutos para que sea más fácil acceder a los mismos y recuperarlos.
  • Procesamiento de datos: diferentes transformaciones de los datos brutos, incluida la limpieza de datos (eliminar imprecisiones o incoherencias), la normalización de datos (reformatear los datos para que todos tengan la misma forma), el enriquecimiento de datos (añadir contexto o información necesaria) y la estructuración de datos (transformar datos semiestructurados o no estructurados en datos estructurados).
  • Linaje de los datos: el proceso de seguimiento de los datos desde su formato original, en bruto, hasta su estado transformado.
  • Seguridad y gobernanza de los datos: diferentes métodos para garantizar la seguridad de los datos y el control de acceso, el linaje de los datos, la calidad de los datos, y el análisis y auditoría de los datos.

Casos de uso del lago de datos

Los lagos de datos pueden utilizarse para una amplia gama de fines, como el análisis y la exploración de datos, la gestión de Internet de las Cosas (IoT), las experiencias personalizadas de los consumidores, el aprendizaje automático avanzado y mucho más. Los lagos de datos también son útiles para entrenar modelos de inteligencia artificial (IA), que a menudo necesitan conjuntos de datos muy grandes para producir resultados eficaces.

Por ejemplo, imagina que una empresa de viajes quiere ofrecer recomendaciones de viaje personalizadas y automatizadas a su clientela. Con un lago de datos, pueden ingerir una gran cantidad de datos de clientes relacionados con pautas de viaje habituales, destinos populares, duración de la estancia, tipo de alojamiento y actividades. Luego, pueden utilizar esos datos para entrenar un modelo de IA que desarrolle recomendaciones más avanzadas e, idealmente, garantice también una mayor satisfacción del cliente.

¿Cuáles son las ventajas de los lagos de datos?

  • Flexibilidad: por su diseño, los lagos de datos pueden almacenar datos en cualquier formato, sin necesidad de comprimir o reformatear archivos
  • Escalabilidad: los lagos de datos pueden manejar cantidades casi ilimitadas de datos, lo que los convierte en una opción más popular para las organizaciones que necesitan procesar y almacenar grandes (y crecientes) cantidades de datos
  • Facilidad de búsqueda: los lagos de datos permiten una recuperación directa de los datos mediante metadatos detallados y altamente personalizables
  • Simplicidad: todos los datos se almacenan en el mismo lago de datos, en lugar de complejas configuraciones jerárquicas

¿Cuáles son las limitaciones de los lagos de datos?

  • Problemas de fiabilidad: los lagos de datos pueden convertirse en pantanos de datos cuando se añaden demasiados datos a un repositorio sin una categorización y transformación efectivas, lo que hace que el lago de datos sea poco fiable y difícil de utilizar
  • Rendimiento lento: aunque los lagos de datos están diseñados para funcionar a escala masiva, demasiados datos (o motores de consulta ineficaces) pueden afectar a los tiempos de consulta y al rendimiento general
  • Tarifas de salida de datos: la salida de datos (o transferencia de datos) es el proceso de recuperar datos del proveedor de almacenamiento en la nube de una organización A menudo, los proveedores de la nube cobran por estas transferencias, y las tarifas pueden dispararse en función de la cantidad de datos que una organización necesite trasladar

Lagos de datos frente a almacenes de datos

Los lagos de datos son grandes depósitos de datos estructurados y no estructurados. Su principal ventaja es su capacidad para funcionar de forma rentable a gran escala, pero su tamaño y la complejidad de sus sistemas de categorización pueden hacerlos ineficaces en comparación con otros tipos de procesamiento y almacenamiento de datos.

Al igual que los lagos de datos, los almacenes de datos también son grandes depósitos de datos. A diferencia de los lagos de datos, solo almacenan datos estructurados, y utilizan jerarquías de archivos tradicionales para organizar, almacenar y recuperar datos. Esta arquitectura permite una recuperación de datos y un rendimiento más rápidos, aunque puede ser exponencialmente más cara de escalar que un lago de datos.

Algunos proveedores en la nube ofrecen un enfoque híbrido denominado data lakehouses, que combina las principales funcionalidades y ventajas de los lagos de datos y los almacenes. En lugar de mantener los datos estructurados y no estructurados en silos en sistemas separados, las organizaciones pueden utilizar los lagos de datos para procesar y almacenar todo tipo de datos, con las capacidades organizativas y el alto rendimiento de un almacén de datos y la escalabilidad rentable de un lago de datos. Este enfoque también permite a las organizaciones garantizar una mayor integridad y fiabilidad de los datos mediante herramientas automatizadas de cumplimiento y gobierno de los datos.

¿Cloudflare es compatible con los lagos de datos?

Cloudflare R2 es una solución de almacenamiento de objetos sin coste adicional que permite a las organizaciones desarrollar sus propios lagos de datos. Respaldado por la red global de Cloudflare, R2 ayuda a garantizar una durabilidad y fiabilidad óptimas de los datos replicando los objetos varias veces, para que sigan siendo fácilmente accesibles y muy resistentes a los fallos regionales y a la pérdida de datos.

Más información sobre R2. y cómo la conectividad cloud reduce las tasas de salida al mover datos entre nubes.