Qu’est ce qu’un robot d’indexation ? | Comment fonctionnent les araignées du Web

Un robot d'indexation, ou «araignée», est un type de robot qui est généralement exploité par des moteurs de recherche comme Google et Bing. Leur objectif est d’indexer le contenu des sites Web sur tout Internet afin que ces sites Web apparaissent dans les résultats d’un moteur de recherche.

Objectifs d’apprentissage

Cet article s'articule autour des points suivants :

  • Découvrir ce qu’est un robot d'indexation (ou araignée)
  • Comprendre comment un robot d'indexation choisit les pages à indexer
  • Expliquer la différence entre l’indexation et le web scraping
  • Déterminer si oui ou non l’indexation devrait être autorisée sur une page web donnée

Contenu associé


Vous souhaitez continuer à enrichir vos connaissances ?

Abonnez-vous à theNET, le récapitulatif mensuel de Cloudflare des idées les plus populaires concernant Internet !

Consultez la politique de confidentialité de Cloudflare pour en savoir plus sur la manière dont nous collectons et traitons vos données personnelles.

Copier le lien de l'article

Protégez-vous contre les attaques de bots telles que le bourrage d'identifiants (Credential Stuffing) et l'extraction de contenu avec Cloudflare.

Qu'est-ce qu'un robot d'indexation ?

Un robot d'indexation, appelé aussi spider ou robot de moteur de recherche télécharge et indexe le contenu partout sur l'Internet. L’objectif d’un tel bot est d’apprendre ce que contiennent (presque) toutes les pages du Web afin que ces informations puisse être récupérées lorsque nécessaire. Ces robots sont appelés « robots d’indexation » parce que l’indexation est le terme technique qui désigne le fait d’accéder à un site web et d’obtenir des données par l'intermédiaire d'un logiciel.

Ces robots sont presque toujours exploités par les moteurs de recherche. En appliquant un algorithme de recherche aux données collectées par les robots d'indexation, les moteurs de recherche peuvent fournir des liens pertinents en réponse aux recherches des utilisateurs, et générer la liste des pages web qui s'affiche après qu'un utilisateur a saisi une recherche dans Google ou Bing (ou un autre moteur de recherche).

Un robot d'indexation est comme un bibliothécaire qui fait l'inventaire de tous les livres d'une bibliothèque désorganisée et crée un catalogue afin que les emprunteurs puissent trouver rapidement et facilement les informations dont il ont besoin. Pour classer les livres de la bibliothèque par sujet, le bibliothécaire lira le titre, le résumé et feuillettera rapidement chaque livre pour comprendre le sujet traité.

Le robot d'indexation du Web organise l'information

Toutefois, contrairement à une bibliothèque, Internet n'est pas composé de piles physiques de livres. Il est ainsi plus difficile de déterminer si toutes les informations nécessaires ont été correctement indexées, ou si de grandes quantités d'entre elles sont ignorées. Pour essayer de trouver toutes les informations pertinentes qu'Internet doit fournir, un robot d'indexation commencera par un ensemble de pages web connues, puis suivra les liens hypertexte de ces pages vers d'autres pages, suivra les liens hypertexte de ces autres pages vers des pages supplémentaires, et ainsi de suite.

On ne connaît pas la part d'Internet accessible au public qui est réellement explorée par les bots des moteurs de recherche. Certaines sources estiment que seulement 40 à 70 % d'Internet est indexé pour la recherche, et cela représente des milliards de pages web.

Qu'est-ce que l'indexation de la recherche ?

L'indexation de la recherche revient à créer un catalogue de fiches de bibliothèque pour Internet afin qu'un moteur de recherche sache où extraire les informations lorsqu'une personne les recherche. Elle peut également être comparée à l'index à la fin d'un livre, qui répertorie tous les endroits du livre où un certain sujet ou une certaine phrase est mentionné(e).

L'indexation se concentre principalement sur le texte qui apparaît sur la page et sur les métadonnées* de la page que les utilisateurs ne voient pas. Lorsque la plupart des moteurs de recherche indexent une page, ils ajoutent tous les mots de la page à l'index, à l'exception de mots grammaticaux comme « un », « une » et « le », « la » dans le cas de Google. Lorsque les utilisateurs recherchent ces mots, le moteur de recherche parcourt son index de toutes les pages où ces mots apparaissent et sélectionne les plus pertinentes.

* Dans le contexte de l'indexation de la recherche, les métadonnées sont des données qui indiquent aux moteurs de recherche le sujet d'une page web. Souvent, le méta-titre et la méta-description sont les éléments qui apparaîtront sur les pages de résultats des moteurs de recherche, par opposition au contenu de la page web visible par les utilisateurs.

Comment fonctionnent les robots d'indexation ?

Internet est en constante évolution et expansion. Parce qu'il n'est pas possible de savoir combien de pages web existent au total sur Internet, les robots d'indexation commencent à partir d'une graine, c'est-à-dire une liste d'URL connues. Ils exploreront d'abord les pages web de ces URL. En indexant ces pages web, ils trouveront des hyperliens vers d'autres URL et les ajouteront à la liste des pages à indexer ensuite.

Étant donné le grand nombre de pages web qui pourraient être indexées pour la recherche, ce processus pourrait se poursuivre presque indéfiniment. Toutefois, un robot d'indexation suivra certaines politiques qui le rendent plus sélectif sur les pages à indexer, dans quel ordre les indexer et à quelle fréquence ils doivent les indexer à nouveau pour vérifier les mises à jour de contenu.

Importance relative de chaque page web : la plupart des robot d'indexation n'indexent pas l'intégralité d'Internet accessible au public et ne sont pas prévus pour effectuer cette tâche. En fait, ils décident quelles pages indexer en premier en fonction du nombre des autres pages liées à cette page, du nombre de visiteurs que cette page reçoit ainsi que d'autres facteurs qui indiquent la probabilité que la page contienne des informations importantes.

L’idée est qu’une page web qui est citée par de nombreuses autres pages et qui compte de nombreux visiteurs est susceptible de contenir des informations de grande qualité qui font autorité. Il est donc particulièrement important qu’un moteur de recherche l’indexe, de la même façon qu’une bibliothèque veillera à avoir en rayons plusieurs exemplaires d’un livre qui est emprunté par de nombreuses personnes.

Nouvelle visite des pages web : le contenu du Web est continuellement mis à jour, supprimé ou déplacé vers de nouveaux endroits. Les robots d'indexation doivent régulièrement revisiter les pages pour s’assurer que la dernière version du contenu est indexée.

Exigences de robots.txt : les robots d'indexation décident également des pages à explorer en se basant sur le protocole robots.txt (également appelé protocole d'exclusion des robots). Avant d’indexer une page web, ils vérifient le fichier robots.txt hébergé par le serveur web de cette page. Un fichier robots.txt est un fichier texte qui définit les règles d’accès à l’application ou au site Web hébergé. Ces règles définissent les pages que les bots peuvent indexer et les liens qu’ils peuvent suivre. À titre d'exemple, consultez le fichier robots.txt de Cloudflare.com.

Tous ces facteurs sont pondérés différemment dans les algorithmes propriétaires que chaque moteur de recherche intègre dans ses spiders. Les robots d'indexation de différents moteurs de recherche se comporteront de manière légèrement différente, bien que l'objectif final soit le même : télécharger et indexer le contenu des pages web.

Pourquoi les robots d'indexation sont-ils appelés « spiders » ?

Internet, ou du moins la partie à laquelle la plupart des utilisateurs accèdent, est également connu sous le nom de World Wide Web. En fait, c'est de là que vient la partie « www » de la plupart des URL de sites web. Il était naturel d'appeler les bots des moteurs de recherche des spiders (araignées), car ils se déplacent partout sur la toile (le web), comme les vraies araignées le font dans la nature sur leur toile.

Les robots d'indexation doivent-ils toujours être autorisés à accéder aux propriétés web ?

Cela dépend de la propriété web, et cela dépend d'un certain nombre de facteurs. Les robots d'indexation ont besoin des ressources d'un serveur pour indexer son contenu. Ils font des requêtes auxquelles le serveur doit répondre, tout comme un utilisateur ou d'autres bots accédant à un site web. Selon la quantité de contenu sur chaque page ou le nombre de pages sur le site, l'exploitant du site web pourrait avoir intérêt à ne pas autoriser l'indexation de recherche trop souvent, car une trop grande indexation pourrait surcharger le serveur, augmenter les coûts de bande passante, voire les deux.

De plus, les développeurs ou les entreprises peuvent ne pas vouloir que certaines pages web soient détectables à moins qu'un utilisateur n'ait déjà reçu un lien vers ces pages (sans mettre de mesure de restriction d'accès sur la page telle qu'un paywall ou une connexion). Un tel cas se produit pour les entreprises lorsqu'elles créent une page d'accueil spéciale pour une campagne marketing, mais qu'elles ne veulent pas qu'un consommateur non ciblé par la campagne accède à la page. De cette façon, elles peuvent personnaliser la messagerie ou mesurer précisément les performances de la page. Dans ce cas, l'entreprise peut ajouter une balise « no index » à la page d'accueil et elle n'apparaîtra pas dans les résultats des moteurs de recherche. Elles peuvent également ajouter une balise « disallow » (interdire) dans la page ou dans le fichier robots.txt, et les spiders ne l'exploreront pas.

Les propriétaires de sites web peuvent également ne pas vouloir que les robots d'indexation explorent une partie ou la totalité de leurs sites pour diverses autres raisons. Par exemple, un site web qui offre aux utilisateurs la possibilité de rechercher dans le site peut vouloir bloquer les pages de résultats de recherche, car elles ne sont pas utiles pour la plupart des utilisateurs. Les autres pages générées automatiquement qui ne sont utiles qu'à un seul utilisateur ou à quelques utilisateurs spécifiques doivent également être bloquées.

Quelle est la différence entre l'indexation web et le web scraping ?

Le scraping de données appelé aussi web scraping ou scraping de contenu se produit quand un bot télécharge le contenu d'un site web sans autorisation, souvent avec l'intention d'utiliser ce contenu à des fins malveillantes.

Le web scraping est généralement beaucoup plus ciblé que l'indexation. Les web scrapers peuvent se concentrer sur des pages ou sites web spécifiques uniquement, tandis que les robots d'indexation suivront les liens et les pages d'indexation en continu.

De plus, les bots de scraping négligent généralement la pression qu’ils exercent sur les serveurs web, tandis que les robots d'indexation, notamment ceux des principaux moteurs de recherche, obéissent aux fichiers robots.txt et limitent leurs requêtes pour ne pas surcharger le serveur web.

Comment les robots d'indexation affectent-ils le SEO ?

SEO signifie Search Engine Optimization (optimisation pour les moteurs de recherche, ou référencement naturel). Ce terme fait référence à la discipline qui consiste à préparer du contenu pour l’indexation de recherche afin qu’un site web apparaisse plus haut dans les résultats d’un moteur de recherche.

Si les spiders n'explorent pas un site web, celui-ci ne peut pas être indexé et n'apparaîtra pas dans les résultats de recherche. Aussi, si un propriétaire de site web souhaite obtenir du trafic généré par les résultats naturels à partir des résultats de recherche, il est très important qu'il ne bloque pas les robot d'indexation.

Liste des robots d'indexation

Les bots des principaux moteurs de recherche portent les noms suivants :

  • Google : Googlebot (en fait, deux robots d'indexation, Googlebot Desktop et Googlebot Mobile, pour les recherches sur ordinateur et sur mobile)
  • Bing : Bingbot
  • DuckDuckGo : DuckDuckBot
  • Yahoo ! Search : Slurp
  • Yandex : YandexBot
  • Baidu : Baiduspider
  • Exalead : ExaBot

Il existe également de nombreux autres robots d'indexation, dont certains ne sont associés à aucun moteur de recherche.

Pourquoi est il important de prendre en compte l’indexation web dans la gestion des bots ?

Les mauvais bots peuvent causer beaucoup de dommages, de la mauvaise expérience des utilisateurs aux crashs de serveurs en passant par le vol de données. Cependant, en bloquant les mauvais robots, il est important de permettre aux bons robots, tels que les robots d'exploration du Web, d'accéder aux propriétés Web. Cloudflare Bot Management permet aux bons robots de continuer à accéder aux sites Web tout en atténuant le trafic de bots malveillants. Le produit tient à jour automatiquement une liste d'autorisation des bons bots, comme les robots d'exploration du Web, pour s'assurer qu'ils ne sont pas bloqués. Les petites entreprises peuvent obtenir un niveau similaire de visibilité et de contrôle sur leur trafic de robots grâce à Super Bot Fight Mode, disponible sur les plans Pro et Business de Cloudflare.