Qu’est ce qu’un robot d’indexation ? | Comment fonctionnent les araignées du Web

Un robot d'indexation, ou «araignée», est un type de robot qui est généralement exploité par des moteurs de recherche comme Google et Bing. Leur objectif est d’indexer le contenu des sites Web sur tout Internet afin que ces sites Web apparaissent dans les résultats d’un moteur de recherche.

Share facebook icon linkedin icon twitter icon email icon

Robot d'indexation

Objectifs d’apprentissage

Après avoir lu cet article, vous pourrez :

  • En savoir plus sur ce qu’est un robot d'indexation (ou araignée)
  • Comprendre comment un robot d'indexation choisit quelles pages indexer
  • Expliquer la différence entre l’indexation et l’extraction
  • Déterminer si oui ou non l’indexation devrait être autorisée sur une page Web donnée

Qu’est ce qu’un robot d’indexation ?

Un robot d'indexation, ou araignée, ou bot de moteur de recherche télécharge et indexe le contenu sur tout Internet. L’objectif d’un tel bot est d’apprendre ce que contiennent (presque) toutes les pages du Web afin que cette information puisse être récupérée lorsque cela est nécessaire. Ils sont appelés « robots d’indexation » parce que l’indexation est le terme technique qui désigne le fait d’accéder à un site Web et d’obtenir des données par un agent logiciel.

Ces bots sont presque toujours utilisés par les moteurs de recherche. En appliquant un algorithme de recherche aux données recueillies par les robots d'indexation, les moteurs de recherche peuvent fournir les liens pertinents en réponse aux recherches des utilisateurs, en générant la liste de pages Web qui s’affiche lorsqu’un utilisateur saisit une recherche dans Google ou Bing (ou tout autre moteur de recherche).

Un robot d'indexation est comme quelqu’un qui regarderait tous les livres d’une bibliothèque désordonnée et créerait un catalogue pour que tous les utilisateurs qui se rendent à la bibliothèque puissent trouver rapidement et facilement l’information dont ils on besoin. Pour classer et trier les livres de la bibliothèque par sujet, la personne qui organise lirait le titre du livre, le résumé et quelques pages du texte de chaque livre pour en déduire de quoi il s’agit.

Cependant, contrairement à une bibliothèque, Internet n’est pas composé de piles physiques de livres, et il est difficile de déterminer si toutes les informations nécessaires ont été indexées correctement ou si d’importantes quantités ont été ignorées. Pour tenter de trouver toutes les informations pertinentes qu’Internet a offrir, un robot d'indexation commence par un ensemble de pages Web connues puis suit les liens depuis ces pages vers d’autres pages, suit les liens de ces autres pages vers des pages supplémentaires et ainsi de suite.

Nous ne savons pas avec certitude quelle quantité d’information disponible de façon publique sur Internet est réellement indexée par les robots des moteurs de recherche. Selon certaines sources, seul 40 à 70 % d’Internet est indexé pour la recherche et cela correspond à des milliards de pages.

Qu’est ce que l’indexation de recherche ?

L’indexation de recherche consiste à créer un catalogue de bibliothèque pour Internet afin qu’un moteur de recherche sache où trouver l’information lorsqu’un utilisateur la recherche. Elle peut également être comparée à l’index d’un livre, qui liste tous les endroits dans le livre où un sujet ou une phrase spécifique est mentionné.

L’indexation cible principalement le texte qui apparait sur une page, et dans les métadonnées* d’une page que l’utilisateur ne voit pas. Lorsque la plupart des moteurs de recherche indexent une page, ils ajoutent tous les mots de la page dans l’index, à l’exception d’articles comme « un », « la » dans le cas de Google. Lorsque les utilisateurs cherchent ces mots, le moteur de recherche parcoure son index de toutes les pages où les mots apparaissent et sélectionne les plus pertinents.

*Dans le contexte de l’indexation de la recherche, les métadonnées sont des données qui indiquent aux moteurs de recherche de quoi il s’agit. Généralement, les pages de résultats du moteur de recherche affichent le méta titre et la méta description plutôt que le contenu de la page visible pour les utilisateurs.

Comment fonctionnent les robots d'indexation ?

Internet change et grandit constamment. Puisqu’il n’est pas possible de connaitre le nombre total de pages Web sur Internet, les robots d'indexation commence à partir d’une source, ou une liste d’URL connues. Ils commencent par indexer les pages Web de ces URL. Pendant l’indexation de ces pages, ils trouvent des liens vers d’autres URL, et les ajoutent à la liste de pages à indexer ensuite.

Étant donné le très grand nombre de pages sur Internet qui peuvent être indexées pour les recherches, ce processus pourrait durer quasiment indéfiniment. Cependant, un robot d'indexation suit certaines règles qui lui permettent de sélectionner les pages à indexer, dans quel ordre les indexer et à quelle fréquence le faire à nouveau pour chercher les mises à jour de contenu.

L’importance relative de chaque page Web : La plupart des robots d'indexation n’indexent pas la totalité des informations Internet publiques, et ne sont pas prévus pour. Au lieu de cela, ils décident quelles pages indexer en priorité selon le nombre de pages qui sont liées à cette page, le nombre de visiteurs et d’autres facteurs qui représente la probabilité qu’elle contienne des informations importantes.

L’idée est qu’une page Web qui est citée par de nombreuses autres pages et qui compte de nombreux visiteurs est susceptible de contenir des informations de grande qualité et qui font autorité, il est donc particulièrement important qu’un moteur de recherche l’indexe, de la même façon qu’une bibliothèque s’assurera de disposer de plusieurs exemplaires d’un livre qui est emprunté par de nombreuses personnes.

Revisiter des pages internet : Le contenu du web est continuellement mis à jour, supprimé ou déplacé. Les robots d'indexation doivent régulièrement revisiter les pages pour s’assurer que la dernière version du contenu est indexée.

Exigences robots.txt : Les robots d'indexation décident également quelles pages indexer selon le protocole robots.txt (également appelé le protocole d’exclusion des robots). Avant d’indexer une page Web, ils vérifient le fichier robots.txt hébergé par le serveur web de cette page. Un fichier robots.txt est un fichier texte qui définit les règles d’accès à l’application ou au site Web hébergé.. Ces règles définissent les pages que les bots peuvent indexer et les liens qu’ils peuvent suivre. En guise d’exemple, examinez le fichier robots.txt de Cloudflare.com.

Tous ces facteurs sont pondérés différemment au sein des algorithmes propriétaires que chaque moteur de recherche crée dans ses bots araignées. Les robots d'indexation des différents moteurs de recherche fonctionnent légèrement différemment, bien que l’objectif final soit le même : télécharger et indexer le contenu des pages Web.

Pourquoi les robots d'indexation sont ils appelés des « araignées » ?

Internet, ou du moins la partie à laquelle la plupart des utilisateurs ont accès, est aussi connue sous le nom de World Wide Web, littéralement la « toile (d’araignée) mondiale », c’est d’ailleurs de là que vient le « www » de la plupart des URL. Il est donc logique d’appeler les bots de moteurs de recherche des « araignées » puisqu’ils parcourent le Web comme les araignées parcourent leur toile.

Les robots d'indexation doivent-ils toujours être autorisés à accéder aux propriétés Web ?

La décision appartient à la propriété web et elle dépend d’un certain nombre de facteurs. Les robots d’indexation ont besoin de ressources pour indexer le contenu, ils font des requêtes auquel le serveur doit répondre, tout comme un utilisateur consultant un site Web ou tout autre bot y accédant. Selon la quantité de contenu de chaque page ou le nombre de pages du site, il peut être dans l’intérêt de l’opérateur du site de ne pas autoriser une indexation trop fréquente puisque trop d’indexation pourrait surtaxer le serveur ou augmenter les coûts de bande passante, voire les deux.

De plus, les développeurs ou entreprises peuvent souhaiter que certaines pages ne soient pas découvertes sans que l’utilisateur ai déjà un lien vers cette page (sans pour autant mettre cette page derrière un péage ou un mot de passe). Par exemple, lorsqu’une entreprise crée une page de destination pour une campagne marketing, elle peut choisir de ne cibler qu’une partie des internautes par cette campagne, les autres n’y ayant pas accès. Ainsi, elle peut personnaliser la communication ou mesurer précisément les performances de la page. Dans ce cas, l’entreprise peut ajouter une balise « pas d’index » à la page de destination et elle n’apparaitra pas dans les résultats du moteur de recherche. Elle peut également ajouter une balise « empêcher » à la page ou dans le fichier robots.txt et les araignées du moteur de recherche ne l’indexeront pas du tout.

Pour un certain nombre d’autres raisons, les propriétaires de site Web peuvent souhaiter que les robots d'indexation n’indexent pas tout ou une partie de leur site. Par exemple, un site qui permet aux utilisateurs de faire des recherche dans le site peut souhaiter bloquer les pages de résultats qui ne seront pas utiles pour la majorité des utilisateurs. D’autres pages auto-générées qui ne sont utiles que pour un seul utilisateur ou que pour quelques utilisateurs bien spécifiques doivent également être bloquées.

Quelle est la différence entre l’indexation et l’extraction ?

L’extraction Web, l’extraction de données, ou l’extraction de contenu fait référence à un bot qui télécharge le contenu d’un site Web sans autorisation, souvent dans le but de l’utiliser à des fins malveillantes.

L’extraction Web est souvent beaucoup plus ciblée que l’indexation Web. Les extracteurs Web peuvent cibler uniquement des pages ou sites Web spécifiques, tandis que les robots d'indexation continuent à suivre les liens et à indexer les pages sans interruption.

De plus, les bots d’extraction Web négligent généralement la pression qu’ils exercent sur les serveurs web, tandis que les robots d'indexation, principalement ceux des principaux moteurs de recherche, obéissent aux fichiers robots.txt et limitent leurs requêtes pour ne pas surtaxer le serveur web.

Quel est l’impact des robots d'indexation sur le SEO ?

SEO signifie Search Engine Optimization (optimisation pour les moteurs de recherche) et le terme fait référence à la discipline qui consiste à préparer du contenu pour l’indexation de recherche afin qu’un site Web apparaisse plus haut dans les résultats d’un moteur de recherche.

Si les bots araignées ne parcourent pas un site, il ne pourra pas être indexé et il ne sera donc pas affiché dans les résultats de la recherche. Pour cette raison, si le propriétaire d’un site souhaite recevoir du trafic directement depuis les résultats de recherche, il est très important qu’il ne bloque pas les robots d’indexation.

Quels sont les robots d'indexation actifs sur Internet ?

Les bots des principaux moteurs de recherche sont appelés :

  • Google : Googlebot (en réalité deux robots d'indexation : Googlebot Desktop et Googlebot Mobile pour les recherches respectivement depuis un ordinateur et depuis un périphérique mobile)
  • Bing : Bingbot
  • Yandex (moteur de recherche russe) : Bot Yandex
  • Baidu (moteur de recherche chinois) : Baidu Spider

Il existe également des robots d'indexation moins connus, dont certains ne sont associés à aucun moteur de recherche.

Pourquoi est il important de prendre en compte l’indexation dans la gestion des bots ?

Les mauvais bot peuvent avoir de lourdes conséquences, d’une mauvaise expérience utilisateur à une panne de serveur en passant par le vol de données. Cependant, tout en bloquant les mauvais bots, il est important d’autoriser l’accès aux propriétés Web aux bons bots, comme les robots d'indexation. La gestion des bots de Cloudflare permet de laisser les bons bots accéder aux sites Web tout en atténuant le trafic bot malveillant. Le produit conserve une liste blanche des bons bots, mise à jour automatiquement, comme les robots d’indexation, afin de s’assurer qu’ils ne sont pas bloqués.