Le big data désigne toute collection de données trop volumineuse pour être traitée ou analysée par les méthodes traditionnelles.
Cet article s'articule autour des points suivants :
Copier le lien de l'article
Le terme de « big data » fait référence à des collections de données très massives, complexes et en croissance rapide, à tel point que les logiciels de traitement de données traditionnels ne peuvent pas les gérer. Ces collections peuvent contenir des données structurées et non structurées. Il n'existe pas de définition techniquement précise ni universellement acceptée pour le « big data », cependant le terme est couramment utilisé pour désigner des collections de données massives qui se développent rapidement.
La capacité de stockage numérique a augmenté de manière exponentielle depuis le développement des premiers ordinateurs. Les données peuvent être sauvegardées à grande échelle et récupérées en quelques secondes. Depuis l'informatique cloud le stockage des données est devenu pratiquement illimité. Ce sont ces développements qui ont permis l'avènement du big data.En outre, avec l'utilisation généralisée d'Internet, les données provenant de l'activité des utilisateurs, du contenu hébergé sur le web et des dispositifs de l'Internet des objets (IoT) peuvent être enregistrées et analysées à des fins de prédictions ou d'entraînement des modèles avancés d'intelligence artificielle (IA).
Le big data peut provenir de sources accessibles au grand public ou être propriétaire. Voici quelques exemples de big data ou données massives :
Les utilisations courantes du big data sont les suivantes :
Tout le monde n'est pas totalement d'accord à propos de ce qu'est exactement le « big data », toutefois, le terme est généralement appliqué à une collection de données qui répond aux critères généraux de volume, de vélocité et de variété :
Ensemble, ces attributs sont connus sous le nom de « les trois V ».
L'IA désigne la capacité des ordinateurs à effectuer des tâches cognitives, telles que la génération de textes ou la création de recommandations. D'une certaine manière, le big data et l'IA entretiennent une relation symbiotique :
Les ensembles de données massives rendent possible une IA efficace, en permettant une formation plus précise et plus complète pour les algorithmes avancés. Les grands ensembles de données étiquetées et organisées peuvent servir à l'entraînement des modèles d'apprentissage automatique ; les modèles d'apprentissage en profondeur sont capables de traiter des données brutes non étiquetées, mais nécessitent une puissance de calcul plus importante.
Par exemple, le grand modèle de langage (LLM) ChatGPT a été entraîné sur des millions de documents. Les données qu'il reçoit des utilisateurs l'aident à s'entraîner davantage à produire des réponses qui semblent humaines. Autre exemple, les plateformes de médias sociaux utilisent des algorithmes d'apprentissage automatique pour proposer du contenu à leurs utilisateurs. Avec des millions de consultations et de réactions aux publications, ils disposent d'un grand nombre de données sur ce que les utilisateurs veulent voir, et peuvent utiliser ces données pour créer un fil d'actualité ou une page de suggestions personnalisées en fonction du comportement de l'utilisateur.
L'IA quant à elle, grâce à sa rapidité de traitement et sa capacité à faire des associations, est en mesure d'analyser d'énormes ensembles de données qu'aucun humain ou logiciel d'interrogation de données traditionnel ne pourrait traiter seul. Les fournisseurs de services de diffusion en continu comme Netflix utilisent des algorithmes propriétaires basés sur le comportement de visionnage antérieur afin de prédire les types d'émissions ou de films que les téléspectateurs apprécieront le plus.
Surcharge d'informations : tout comme il est difficile de trouver l'objet dont on a besoin dans une pièce trop encombrée, lorsqu'elles sont trop volumineuses, les bases de données peuvent paradoxalement rendre difficile la recherche de données utilisables et dignes d'intérêt.
Analyse des données : en règle générale, plus nombreuses sont les données disponibles, plus précises seront les conclusions qui peuvent en être déduites. Mais tirer des conclusions à partir d'ensembles de données massives peut s'avérer difficile. En effet les logiciels traditionnels ont du mal à traiter de telles quantités (et les données massives dépassent largement la capacité d'analyse humaine sans assistance).
Récupération des données : la récupération des données peut s'avérer coûteuse, en particulier si les données sont stockées dans le cloud. Le stockage d'objets nécessite peu de maintenance et il est pratiquement illimité, ce qui le rend idéal pour les ensembles de données volumineux. Cependant les fournisseurs de stockage d'objets facturent souvent des frais de trafic sortant pour la récupération des données stockées.
Garantir l'exactitude des données : lorsque les modèles prédictifs et les algorithmes d'apprentissage automatique sont entraînés sur des données inexactes ou non fiables, ils produisent des résultats incorrects. Cependant, il est difficile de vérifier en temps réel l'exactitude de volumes de données massifs et en croissance rapide.
Inquiétudes concernant la protection de la vie privée et les règlementations : les collections de big data peuvent contenir des données considérées comme des données à caractère personnel par les cadres réglementaires tels que le règlement général sur la protection des données (RGPD). Même si un ensemble de données ne contient pas encore de telles données, rien n'indique que de nouveaux cadres ne viendront pas élargir la définition des informations personnelles jusqu'à faire en sorte que les données déjà stockées deviennent des données à caractère personnelles un jour. Il est possible qu'une organisation ne soit pas au courant de ce que ses ensembles de données contiennent ces données, mais si elle l'est elle s'expose à des amendes et à des sanctions en cas d'accès à ses données ou d'utilisation abusive de ces dernières. En outre, si une base de données contient des informations personnelles, le propriétaire de la base de données voit sa responsabilité accrue en cas de violation de données.
Cloudflare for AI est une suite de produits et de fonctionnalités conçue pour aider les développeurs à créer à partir de l'IA n'importe où. Cloudflare R2 est un stockage d'objets sans frais de trafic sortant qui permet aux développeurs de stocker facilement des données d'entraînement. Vectorize convertit les données en intégrations pour l'entraînement et l'affinement des modèles d'apprentissage automatique. Cloudflare propose également un réseau mondial de processeurs graphiques NVIDIA pour exécuter des tâches d'IA générative. Découvrez toutes les solutions de Cloudflare consacré au développement de l'IA.