¿Qué son los "big data"?

Big data se refiere a cualquier recopilación de datos que sea demasiado grande para que los métodos tradicionales la procesen o analicen.

Objetivos de aprendizaje

Después de leer este artículo podrás:

  • Definir big data
  • Comprender los usos y los retos de los macrodatos
  • Describe la relación entre big data y la AI

Copiar enlace del artículo

¿Qué son los "big data"?

Big data se refiere a las colecciones de datos que son extremadamente grandes, complejas y de rápido crecimiento; tan grandes, de hecho, que el software tradicional de procesamiento de datos no puede gestionarlas. Estas colecciones pueden contener datos estructurados y no estructurados. Aunque no existe una definición técnicamente precisa y ampliamente aceptada de "big data," el término se utiliza comúnmente para referirse a colecciones masivas de datos que se expanden rápidamente.

La capacidad de almacenamiento digital ha aumentado exponencialmente desde el desarrollo de los primeros ordenadores. Los datos pueden guardarse a gran escala y recuperarse en cuestión de segundos. la informática en la nube ha hecho que el almacenamiento de datos sea prácticamente ilimitado. Todos estos avances han hecho posible el advenimiento de los big data. Además, con el uso generalizado de Internet, los datos de la actividad de los usuarios, los contenidos alojados en la web y los dispositivos del Internet de las Cosas (IoT ) pueden registrarse y analizarse para hacer predicciones o entrenar modelos avanzados de inteligencia artificial (IA).

Los big data pueden proceder de fuentes de acceso público, o pueden ser privados. Algunos ejemplos de big data son:

  • Datos de encuestas a clientes
  • Registros del comportamiento del usuario dentro de una aplicación
  • Datos del sensor
  • Contenidos de las redes sociales
  • Contenidos de páginas web
  • Datos de vigilancia
  • Grabaciones de audio

Entre los usos habituales de los big data se incluyen:

  • Análisis predictivo
  • Análisis del comportamiento del usuario
  • Entrenamiento de modelos de IA
  • Desarrollo de productos
  • Optimización de la experiencia del cliente

¿Cuáles son las tres V del big data?

Aunque no existe un acuerdo firme sobre lo que constituye exactamente "big data", el término suele aplicarse a una recopilación de datos que cumple los criterios generales de volumen, velocidad y variedad:

  • Volumen: los big data suelen significar cientos de terabytes de datos, o más
  • Velocidad: los conjuntos de big data se expanden rápidamente, y a menudo de forma continua, con más datos que se ingieren continuamente a un ritmo rápido
  • Variedad: los conjuntos de big data pueden contener datos estructurados o no estructurados, y los datos pueden variar desde documentos y fotos hasta audio, vídeo y registros

Juntos, estos atributos se conocen como "las tres V".

Grandes datos e IA

La IA se refiere a la capacidad de los ordenadores para realizar tareas cognitivas, como generar texto o crear recomendaciones. En cierto modo, los big data y la IA tienen una relación simbiótica:

  • La IA requiere grandes conjuntos de datos para ser capacitada
  • A la inversa, los grandes conjuntos de datos pueden gestionarse y analizarse más fácilmente con la ayuda de la IA

Los conjuntos de datos masivos hacen posible una IA eficaz, permitiendo una capacitación más precisa y completa para los algoritmos avanzados. Se pueden utilizar grandes conjuntos de datos curados y etiquetados para entrenar modelos de aprendizaje automático; los modelos de aprendizaje profundo son capaces de procesar datos brutos sin etiquetar, pero requieren en consecuencia más potencia de cálculo.

Por ejemplo, el gran modelo lingüístico (LLM) ChatGPT se capacitó con millones de documentos. Las entradas que recibe de los usuarios le ayudan a capacitarse aún más para producir respuestas que suenen humanas. Otro ejemplo: las plataformas de redes sociales utilizan algoritmos de aprendizaje automático para seleccionar contenidos para sus usuarios. Con millones de usuarios que ven y les gustan las publicaciones, tienen muchos datos sobre lo que la gente quiere ver, y pueden utilizarlos para crear un feed de noticias o una página "For You" basada en el comportamiento de los usuarios.

A la inversa, el rápido procesamiento de la IA y su capacidad para hacer asociaciones significa que puede utilizarse para analizar enormes conjuntos de datos que ningún humano o software tradicional de consulta de datos podría procesar por sí solo. Los proveedores de streaming como Netflix utilizan algoritmos propios basados en el comportamiento de los espectadores en el pasado para hacer predicciones sobre qué tipo de programas o películas disfrutarán más los espectadores.

¿Cuáles son los retos de la gestión de big data?

Sobrecarga de información: al igual que una habitación demasiado desordenada hace difícil encontrar el objeto que uno necesita, unas bases de datos tan grandes pueden, irónicamente, hacer difícil encontrar datos útiles y relevantes.

Análisis de datos: normalmente, cuantos más datos se tienen, más conclusiones precisas se pueden extraer. Pero sacar conclusiones de conjuntos de datos masivos puede ser un reto, ya que el software tradicional tiene dificultades para procesar cantidades tan grandes (y los grandes datos superan con creces la capacidad humana de análisis sin ayuda).

Recuperación de datos: recuperar datos puede ser caro, especialmente si los datos están almacenados en la nube. El almacenamiento de objetos requiere poco mantenimiento y es casi ilimitado, por lo que es ideal para grandes conjuntos de datos. Pero los proveedores de almacenamiento de objetos suelen cobrar tasas de salida por recuperar los datos almacenados.

Garantizar la exactitud de los datos: los datos inexactos o poco fiables hacen que los modelos predictivos y los algoritmos de aprendizaje automático entrenados con esos datos produzcan resultados incorrectos. Sin embargo, comprobar la exactitud de grandes volúmenes de datos en rápido crecimiento es difícil de hacer en tiempo real.

Preocupación por la privacidad y la normativa: las recopilaciones de big data pueden contener datos que marcos normativos como el Reglamento General de Protección de Datos (RGPD) consideran datos personales. Aunque un conjunto de datos no contenga actualmente tales datos, los nuevos marcos pueden ampliar la definición de información personal de modo que los datos ya almacenados queden incluidos en esta. Una organización puede no ser consciente de que sus conjuntos de datos contienen estos datos, pero si es así, está sujeta a multas y sanciones si se accede a sus datos o se utilizan indebidamente. Además, si una base de datos contiene información personal, el propietario de la base de datos se enfrenta a una mayor responsabilidad en caso de Fuga de datos.

¿Cómo permite Cloudflare que los desarrolladores utilicen sus grandes conjuntos de datos para la AI?

Cloudflare for AI es un conjunto de productos y funciones para ayudar a los desarrolladores a construir sobre AI en cualquier lugar. Cloudflare R2 es un almacenamiento de objetos sin tasas de salida que permite a los desarrolladores almacenar fácilmente datos de formación. Vectorizar traduce los datos en incrustaciones para entrenar y refinar los modelos de aprendizaje automático. Y Cloudflare ofrece una red global de GPUs NVIDIA para ejecutar tareas de AI generativa. Conoce todas las soluciones de Cloudflare para el desarrollo de AI.