Qu’est ce qu’un robot d’indexation ? | Comment fonctionnent les spiders

Un robot d'indexation, ou spider (araignée), est un type de robot qui est généralement exploité par des moteurs de recherche comme Google et Bing. Leur objectif est d’indexer le contenu des sites web sur Internet afin que ces sites web apparaissent dans les résultats d’un moteur de recherche.

Share facebook icon linkedin icon twitter icon email icon

Robot d'indexation

Objectifs d’apprentissage

Après avoir lu cet article, vous pourrez :

  • Découvrir ce qu’est un robot d'indexation (ou araignée)
  • Comprendre comment un robot d'indexation choisit les pages à indexer
  • Expliquer la différence entre l’indexation et le web scraping
  • Déterminer si oui ou non l’indexation devrait être autorisée sur une page web donnée

Qu'est-ce qu'un robot d'indexation de sites web ?

Un robot d'indexation, un spider (araignée) ou un bot de moteur de recherche télécharge et indexe le contenu partout sur Internet. Le but d'un tel bot est d'avoir les renseignements sur (presque) chaque page web, afin que les informations puissent être récupérées en cas de besoin. Ils sont appelés « robots d'indexation » parce que l'indexation est le terme technique qui désigne le fait d'accéder automatiquement à un site web et d'obtenir des données via un logiciel.

Ces robots sont presque toujours exploités par les moteurs de recherche. En appliquant un algorithme de recherche aux données collectées par les robots d'indexation, les moteurs de recherche peuvent fournir des liens pertinents en réponse aux recherches des utilisateurs, et générer la liste des pages web qui s'affiche après qu'un utilisateur a saisi une recherche dans Google ou Bing (ou un autre moteur de recherche).

Un robot d'indexation est comme un bibliothécaire qui fait l'inventaire de tous les livres d'une bibliothèque désorganisée et crée un catalogue afin que les emprunteurs puissent trouver rapidement et facilement les informations dont il ont besoin. Pour lui permettre de classer les livres de la bibliothèque par sujet, le bibliothécaire lira le titre, le résumé et feuillettera rapidement chaque livre pour comprendre le sujet traité.

Toutefois, contrairement à une bibliothèque, Internet n'est pas composé de piles physiques de livres, ce qui rend difficile de dire si toutes les informations nécessaires ont été correctement indexées, ou si de grandes quantités d'entre elles sont ignorées. Pour essayer de trouver toutes les informations pertinentes qu'Internet doit fournir, un robot d'indexation commencera par un ensemble de pages web connues, puis suivra les liens hypertexte de ces pages vers d'autres pages, suivra les liens hypertexte de ces autres pages vers des pages supplémentaires, et ainsi de suite

On ne connaît pas la part d'Internet accessible au public qui est réellement explorée par les bots des moteurs de recherche. Certaines sources estiment que seulement 40 à 70 % d'Internet est indexé pour la recherche, et cela représente des milliards de pages web.

Qu'est-ce que l'indexation de recherche ?

L'indexation de la recherche revient à créer un catalogue de fiches de bibliothèque pour Internet afin qu'un moteur de recherche sache où extraire les informations lorsqu'une personne les recherche. Elle peut également être comparée à l'index à la fin d'un livre, qui répertorie tous les endroits du livre où un certain sujet ou une certaine phrase est mentionné.

L'indexation se concentre principalement sur le texte qui apparaît sur la page et sur les métadonnées* de la page que les utilisateurs ne voient pas. Lorsque la plupart des moteurs de recherche indexent une page, ils ajoutent tous les mots de la page à l'index, à l'exception de mots grammaticaux comme « un », « une » et « le », « la » dans le cas de Google. Lorsque les utilisateurs recherchent ces mots, le moteur de recherche parcourt son index de toutes les pages où ces mots apparaissent et sélectionne les plus pertinentes.

*Dans le contexte de l'indexation de la recherche, les métadonnées sont des données qui indiquent aux moteurs de recherche le sujet d'une page web. Souvent, le méta-titre et la méta-description sont les éléments qui apparaîtront sur les pages de résultats des moteurs de recherche, par opposition au contenu de la page web visible par les utilisateurs.

Comment fonctionnent les robots d'indexation ?

Internet est en constante évolution et expansion. Parce qu'il n'est pas possible de savoir combien de pages web il existe au total sur Internet, les robots d'indexation commencent à partir d'une graine, c'est-à-dire une liste d'URL connues. Ils exploreront d'abord les pages web de ces URL. En indexant ces pages web, ils trouveront des hyperliens vers d'autres URL et les ajouteront à la liste des pages à indexer ensuite.

Étant donné le grand nombre de pages web qui pourraient être indexées pour la recherche, ce processus pourrait se poursuivre presque indéfiniment. Toutefois, un robot d'indexation suivra certaines politiques qui le rendent plus sélectif sur les pages à indexer, dans quel ordre les indexer et à quelle fréquence ils doivent les indexer à nouveau pour vérifier les mises à jour de contenu.

L'importance relative de chaque page web : la plupart des robot d'indexation n'indexent pas l'intégralité d'Internet accessible au public et ne sont pas prévus pour faire cette tâche. En fait, ils décident quelles pages indexer en premier en fonction du nombre des autres pages qui sont liées à cette page, du nombre de visiteurs que cette page reçoit ainsi que d'autres facteurs qui indiquent la probabilité que la page contienne des informations importantes.

L’idée est qu’une page web qui est citée par de nombreuses autres pages et qui compte de nombreux visiteurs est susceptible de contenir des informations de grande qualité qui font autorité. Il est donc particulièrement important qu’un moteur de recherche l’indexe, de la même façon qu’une bibliothèque veillera à avoir en rayons plusieurs exemplaires d’un livre qui est emprunté par de nombreuses personnes.

Revisiter les pages web : le contenu sur le web est continuellement mis à jour, supprimé ou déplacé vers de nouveaux emplacements. Les robots d'indexation devront périodiquement revoir les pages pour s'assurer que la dernière version du contenu est indexée.

Exigences de Robots.txt : les robots d'indexation décident également des pages à indexer en fonction du protocole robots.txt (également connu sous le nom de protocole d'exclusion des bots). Avant d'indexer une page web, ils vérifieront le fichier robots.txt hébergé par le serveur web de cette page. Un fichier robots.txt est un fichier texte qui précise les règles pour tout robot accédant au site web ou à l'application hébergée. Ces règles définissent les pages que les bots peuvent indexer et les liens qu'ils peuvent suivre. À titre d'exemple, consultez le fichier robots.txt de Cloudflare.com.

Tous ces facteurs sont pondérés différemment dans les algorithmes propriétaires que chaque moteur de recherche intègre dans ses spiders. Les robots d'indexation de différents moteurs de recherche se comporteront légèrement de manière différente, bien que l'objectif final soit le même : télécharger et indexer le contenu des pages web.

Pourquoi les robots d'indexation sont-ils appelés « spiders » ?

Internet, ou du moins la partie à laquelle la plupart des utilisateurs accèdent, est également connu sous le nom de World Wide Web. En fait, c'est de là que vient la partie « www » de la plupart des URL de sites Web. Il était naturel d'appeler les bots des moteurs de recherche des spiders (araignées), car ils se déplacent partout sur la toile (le Web), comme les vraies araignées le font dans la nature sur leur toile

Les robots d'indexation doivent-ils toujours être autorisés à accéder aux propriétés web ?

Cela dépend de la propriété web, et cela dépend d'un certain nombre de facteurs. Les robots d'indexation ont besoin des ressources d'un serveur pour indexer son contenu. Ils font des requêtes auxquelles le serveur doit répondre, tout comme un utilisateur visitant un site web ou d'autres bots accédant à un site web. Selon la quantité de contenu sur chaque page ou le nombre de pages sur le site, l'exploitant du site web pourrait avoir intérêt à ne pas autoriser l'indexation de recherche trop souvent, car une trop grande indexation pourrait surcharger le serveur, augmenter les coûts de bande passante, voire les deux.

De plus, les développeurs ou les entreprises peuvent ne pas vouloir que certaines pages web soient détectables à moins qu'un utilisateur n'ait déjà reçu un lien vers ces pages (sans mettre de mesure de restriction d'accès sur la page telle qu'un paywall ou une connexion). Un tel cas se produit pour les entreprises lorsqu'elles créent une page d'accueil spéciale pour une campagne marketing, mais qu'elles ne veulent pas qu'un consommateur non ciblé par la campagne accède à la page. De cette façon, elles peuvent personnaliser la messagerie ou mesurer précisément les performances de la page. Dans ce cas, l'entreprise peut ajouter une balise « no index » à la page d'accueil et elle n'apparaîtra pas dans les résultats des moteurs de recherche. Elles peuvent également ajouter une balise « disallow » (interdire) dans la page ou dans le fichier robots.txt, et les spiders ne l'exploreront pas.

Les propriétaires de sites web peuvent également ne pas vouloir que les robots d'indexation explorent une partie ou la totalité de leurs sites pour diverses autres raisons. Par exemple, un site web qui offre aux utilisateurs la possibilité de rechercher dans le site peut vouloir bloquer les pages de résultats de recherche, car elles ne sont pas utiles pour la plupart des utilisateurs. Les autres pages générées automatiquement qui ne sont utiles qu'à un seul utilisateur ou à quelques utilisateurs spécifiques doivent également être bloquées.

Quelle est la différence entre l'indexation web et le web scraping ?

Le web scraping, le scraping de données ou le scraping de contenu se produit quand un bot télécharge le contenu sur un site web sans autorisation, souvent avec l'intention d'utiliser ce contenu à des fins malveillantes.

Le web scraping est généralement beaucoup plus ciblé que l'indexation. Les web scapers peuvent se concentrer sur des pages ou sites web spécifiques uniquement, tandis que les robot d'indexation continueront à suivre les liens et les pages d'indexation en continu.

De plus, les bots d’extraction web négligent généralement la pression qu’ils exercent sur les serveurs web, tandis que les robots d'indexation, principalement ceux des principaux moteurs de recherche, obéissent aux fichiers robots.txt et limitent leurs requêtes pour ne pas surcharger le serveur web.

Comment les robots d'indexation affectent-ils le SEO ?

SEO signifie Search Engine Optimization (optimisation pour les moteurs de recherche ou référencement naturel). Ce terme fait référence à la discipline qui consiste à préparer du contenu pour l’indexation de recherche afin qu’un site web apparaisse plus haut dans les résultats d’un moteur de recherche.

Si les spiders n'explorent pas un site web, celui-ci ne peut pas être indexé et n'apparaîtra pas dans les résultats de recherche. Aussi, si un propriétaire de site web souhaite obtenir du trafic organique à partir des résultats de recherche, il est très important qu'il ne bloque pas les robot d'indexation.

Quels sont les robots d'indexation actifs sur Internet ?

Les bots des principaux moteurs de recherche portent les noms suivants :

  • Google : Googlebot (en fait, deux robots d'indexation, Googlebot Desktop et Googlebot Mobile, pour les recherches sur ordinateur et sur mobile)
  • Bing : Bingbot
  • Yandex (moteur de recherche russe) : Yandex Bot
  • Baidu (moteur de recherche chinois) : Baidu Spider

Il existe également des robots d'indexation moins connus, dont certains ne sont associés à aucun moteur de recherche.

Pourquoi est il important de prendre en compte l’indexation web dans la gestion des bots ?

Les bots malveillants peuvent causer beaucoup de dégâts, qui vont de la mauvaise expérience utilisateur aux pannes de serveur en passant par le vol de données. Toutefois, en bloquant les bots malveillants, il est important de toujours autoriser les bons bots, tels que les robots d'indexation, à accéder aux propriétés web. Cloudflare Bot Management permet aux bons bots de continuer à accéder aux sites web tout en atténuant le trafic de bots malveillants. Le produit maintient à jour une liste blanche des bons bots, comme les robots d'indexation web, qui est automatiquement mise à jour pour éviter qu'ils ne soient bloqués.