What is a vector database?

A vector database stores data as mathematical representations called vectors. It is designed to cluster related items, which enables powerful capabilities like similarity searches. Vector databases are foundational for building advanced AI applications.

How do vector databases work?

Each object — whether it's a word, an image, or a document — is represented by a vector, which is a list of numbers. These numbers define the object's location across many different dimensions or characteristics. The database then groups or clusters vectors that are close to each other, allowing a machine learning model to quickly find similar items.

What is a "vector" in the context of AI?

A vector is an array of numerical values that represents an object. Think of it as a list of coordinates, like {12, 13, 19, 8, 9}, that pinpoints the object's location within a multi-dimensional space based on its various attributes.

What are the main uses for vector databases?

Vector databases are primarily used for similarity and semantic searches, machine learning and deep learning, and large language models (LLMs), which power AI agents and other advanced AI applications.

What are the advantages of using a vector database with a machine learning model?

Using a vector database is much faster and more cost-effective than querying a machine learning model directly for every task. The model only needs to process a dataset once to create embeddings, which are then stored in the vector database. This saves a huge amount of processing time and makes it possible to build user-facing applications that return results in milliseconds.

Qu'est-ce qu'une base de données vectorielle ?

Une base de données vectorielle stocke des éléments d'information sous forme de vecteurs. Les bases de données vectorielles regroupent des éléments apparentés, ce qui permet d'effectuer des recherches de similarité et de construire de puissants modèles d'intelligence artificielle.

Objectifs d’apprentissage

Cet article s'articule autour des points suivants :

Expliquer les vecteurs et les bases de données vectorielles
Comprendre les intégrations
Liste des utilisations des bases de données vectorielles

Contenu associé

Qu'est-ce qu'une intégration ?

Qu'est-ce que l'apprentissage automatique ?

Qu’est-ce qu’un LLM ?

Qu'est-ce que l'intelligence artificielle (IA) ?

IA prédictive

Vous souhaitez continuer à enrichir vos connaissances ?

Abonnez-vous à theNET, le récapitulatif mensuel par Cloudflare des informations les plus populaires sur Internet !

Copier le lien de l'article

Qu'est-ce qu'une base de données vectorielle ?

Une base de données vectorielle est une collection de données stockées sous forme de représentations mathématiques. Avec les bases de données vectorielles les modèles d'apprentissage automatique peuvent se souvenir plus facilement des entrées précédentes et ils sont utilisés pour la recherche, les recommandations et la génération de texte. Les données peuvent être identifiées sur la base d'indicateurs de similarité et non sur des correspondances exactes, ainsi, le modèle informatique comprend les données dans leur contexte.

Lorsqu'une personne se rend dans un magasin de chaussures, un vendeur peut lui suggérer des chaussures semblables à la paire qu'elle préfère. De la même manière, lorsque vous faites des achats dans une boutique en ligne, des suggestions d'articles similaires peuvent vous être présentées sous un en-tête tel que « Les clients ont également acheté... » Les bases de données vectorielles permettent aux modèles d'apprentissage automatique d'identifier des objets similaires, à l'instar du vendeur qui présente des chaussures comparables et la boutique en ligne peut suggérer des produits connexes. (En fait, la boutique en ligne peut utiliser un tel modèle d'apprentissage automatique dans ce but.)

En résumé, les bases de données vectorielles permettent aux programmes informatiques d'établir des comparaisons, d'identifier des relations et de comprendre le contexte. Cela permet de créer des programmes d'intelligence artificielle ( IA) avancés tels que les grands modèles linguistiques (LLM).

Intégrations - Documents réunis dans un espace vectoriel

Dans cette base de données vectorielle simple, les documents en haut à droite sont probablement similaires les uns par rapport aux autres.

Qu'est-ce qu'un vecteur ?

Un vecteur est un tableau de valeurs numériques qui définit l'emplacement d'un point flottant sur plusieurs dimensions.

En langage plus courant, un vecteur est une liste de nombres, par exemple {12, 13, 19, 8, 9} : {12, 13, 19, 8, 9}. Ces nombres indiquent un emplacement dans un espace, tout comme un numéro de ligne et de colonne indique une certaine cellule dans une feuille de calcul (par ex. "B7").

Comment fonctionnent les bases de données vectorielles ?

Chaque vecteur d'une base de données vectorielle correspond à un objet ou à un élément ; il peut s'agir d'un mot, d'une image, d'une vidéo, d'un film, d'un document ou de toute autre donnée. Ces vecteurs seront probablement longs et complexes, définissant l'emplacement de chaque objet selon des dizaines, voire des centaines de dimensions.

Par exemple, une base de données vectorielle de films peut localiser des films en fonction de dimensions telles que la durée, le genre, l'année de sortie, la classification de l'orientation parentale, le nombre d'acteurs en commun, le nombre de spectateurs en commun, etc. Si ces vecteurs sont créés avec précision, les films semblables risquent d'être regroupés dans la base de données vectorielle.

Comment les bases de données vectorielles sont-elles utilisées ?

Similitudes et recherches sémantiques : les bases de données vectorielles permettent aux applications de relier des éléments pertinents entre eux. Les vecteurs qui sont regroupés sont similaires et probablement pertinents les uns par rapport aux autres. C'est ce qui permet aux utilisateurs de rechercher des informations pertinentes (par exemple, une recherche d'images), mais aussi aux applications de :
- recommander des produits similaires
- suggérer des chansons, des films ou des émissions
- proposer des images ou des vidéos
L'apprentissage automatique et l'apprentissage en profondeur : la capacité à relier des éléments d'information pertinents permet de construire des modèles d'apprentissage automatique (et d'apprentissage en profondeur) capables d'effectuer des tâches cognitives complexes.
Grands modèles de langage (LLM) et IA générative : les LLM, comme celui sur lequel ChatGPT et Bard sont construits, s'appuient sur l'analyse contextuelle du texte rendue possible par les bases de données vectorielles. En associant des mots, des phrases et des idées entre eux, les LLM peuvent comprendre le langage humain naturel et même générer du texte.

Qu'est-ce qu'une « intégration » ?

Les intégrations sont des vecteurs générés par des réseaux neuronaux .Une base de données vectorielle typique pour un modèle d'apprentissage en profondeur est composée d'intégrations. Une fois qu'un réseau neuronal est correctement ajusté, il peut générer des intégrations de manière autonome, de sorte qu'il n'est pas nécessaire de les créer manuellement. Ces intégrations peuvent ensuite être utilisées pour des recherches de similitudes, des analyses contextuelles, l'IA générative, etc.

Quels sont les avantages de l'utilisation d'une base de données vectorielle ?

Il n'est ni rapide ni rentable d'interroger un modèle d'apprentissage automatique seul, sans base de données vectorielle. Les modèles d'apprentissage automatique ne peuvent pas tout mémoriser : uniquement ce pour quoi ils ont été entraînés. Ils doivent être dans le contexte à chaque fois (c'est ainsi que fonctionnent de nombreux chatbots simples).

Transmettre à chaque fois le contexte d'une requête au modèle prend beaucoup de temps, car la plupart du temps il s'agit de transférer un grand nombre de données, et coûteux, car les données doivent être déplacées et la consommation en puissance de calcul se répète sans cesse tandis que le modèle analyse les mêmes données. Dans la pratique, la plupart des API d' apprentissage automatique sont de toute façon limitées dans la quantité de données qu'elles peuvent accepter en même temps.

C'est en cela qu'une base de données vectorielle s'avère utile : un ensemble de données ne passe par le modèle qu'une seule fois (ou périodiquement, lorsqu'il évolue), et les intégrations de ces données dans le modèle sont stockées dans une base de données vectorielle.

Cela permet d'économiser un temps de traitement considérable. Elle permet de créer des applications destinées à l'utilisateur autour de la recherche sémantique, de la classification et de la détection d'anomalies. Les résultats sont obtenus en quelques dizaines de millisecondes, sans avoir à attendre que le modèle analyse l'ensemble des données.

Pour les requêtes, les développeurs demandent au modèle d'apprentissage automatique une représentation (intégration) de cette requête. L'intégration peut ensuite être transmise à la base de données vectorielle, qui peut renvoyer des intégrations similaires : qui ont déjà été traitées par le modèle. Ces intégrations peuvent ensuite être associées à leur contenu d'origine ; qu'il s'agisse de l'URL d'une page, d'un lien vers une image ou d'un numéro de référence de produit.

En résumé : les bases de données vectorielles fonctionnent à grande échelle, elles donnent des résultats rapides et sont plus rentables que les modèles d'apprentissage automatique sans bases de données vectorielles.

L'offre Cloudflare propose-t-elle la possibilité d'utiliser des bases de données vectorielles ?

Vectorize est une base de données vectorielles distribuée à l'échelle mondiale et proposée par Cloudflare. Les applications bâties sur la plateforme Cloudflare Workers peuvent utiliser Vectorize pour interroger des documents stockés dans Workers KV, des images stockées dans R2 ou des profils utilisateur stockés dans D1. Tout comme l'environnement Workers permet aux développeurs de concevoir des applications sans devoir mettre en place une infrastructure back-end, Vectorize permet aux développeurs d'intégrer des capacités IA dans leurs applications sans devoir construire leur propre infrastructure de base de données vectorielles. Cloudflare propose également la solution Workers AI pour la création d'embeddings.

En savoir plus sur le développement d'applications pilotées par lA sur Cloudflare.

FAQ

Qu'est-ce qu'une base de données vectorielle ?

Une base de données vectorielle stocke les données sous forme de représentations mathématiques appelées vecteurs. Elle est conçue pour regrouper les éléments connexes, ce qui permet d’accéder à de puissantes fonctionnalités telles que les recherches de similarité. Les bases de données vectorielles sont essentielles à la création d’applications d’IA avancées.

Comment fonctionnent les bases de données vectorielles ?

Chaque objet, qu’il s’agisse d’un mot, d’une image ou d’un document, est représenté par un vecteur, qui est une liste de nombres. Ces nombres définissent la position de l’objet selon plusieurs dimensions ou caractéristiques. La base de données regroupe ou met en cluster les vecteurs proches les uns des autres, ce qui permet à un modèle d’apprentissage automatique de trouver rapidement des éléments similaires.

Qu’est-ce qu’un « vecteur » dans le contexte de l’IA ?

Un vecteur est un tableau de valeurs numériques qui représente un objet. Voyez-le comme une liste de coordonnées, par exemple {12, 13, 19, 8, 9}, qui localise l’emplacement de l’objet dans un espace multidimensionnel en fonction de ses différents attributs.

Quelles sont les principales utilisations des bases de données vectorielles ?

Les bases de données vectorielles sont principalement utilisées pour les recherches de similarité et sémantiques, l’apprentissage automatique et l’apprentissage en profondeur, ainsi que les grands modèles de langage (LLM), qui alimentent les agents IA et d’autres applications d’IA avancées.

Quels sont les avantages de l’utilisation d’une base de données vectorielle avec un modèle d’apprentissage automatique ?

Il est beaucoup plus rapide et rentable d’utiliser une base de données vectorielle que d’interroger directement un modèle d’apprentissage automatique pour chaque tâche. Le modèle n’a besoin de traiter un ensemble de données qu’une seule fois pour créer des intégrations, qui sont ensuite stockées dans la base de données vectorielle. Cela fait gagner beaucoup de temps de traitement et permet de développer des applications utilisateur capables de fournir des résultats en millisecondes.

DÉMARRAGE

Intelligence artificielle

Apprentissage automatique

Big data

Glossaire

Centre d'apprentissage