Qu’est ce qu’un robot d’indexation ? | Comment fonctionnent les araignées du Web

Un robot d'indexation, ou « araignée », est un type de robot qui est généralement exploité par des moteurs de recherche comme Google et Bing. Leur objectif est d’indexer le contenu des sites Web sur tout Internet afin que ces sites Web apparaissent dans les résultats d’un moteur de recherche.

Share facebook icon linkedin icon twitter icon email icon

Robot d'indexation

Objectifs d’apprentissage

Après avoir lu cet article, vous pourrez :

  • En savoir plus sur ce qu’est un robot d'indexation (ou araignée)
  • Comprendre comment un robot d'indexation choisit quelles pages indexer
  • Expliquer la différence entre l’indexation et l’extraction
  • Déterminer si oui ou non l’indexation devrait être autorisée sur une page Web donnée

Qu'est-ce qu'un robot d'indexation de sites Web ?

Un robot d'indexation Web, une « araignée » ou un bot de moteur de recherche télécharge et indexe le contenu de partout sur Internet. Le but d'un tel bot est d'avoir les renseignements sur (presque) chaque page Web, afin que les informations puissent être récupérées en cas de besoin. Ils sont appelés « robots d'indexation web » parce que l'indexation est le terme technique qui désigne le fait d'accéder automatiquement à un site Web et obtenir des données via un logiciel.

Ces bots sont presque toujours exploités par les moteurs de recherche. En appliquant un algorithme de recherche aux données collectées par les bots d'indexation, les moteurs de recherche peuvent fournir des liens pertinents en réponse aux requêtes de recherche des utilisateurs, générant la liste des pages Web qui s'affichent après qu'un utilisateur a saisi une recherche dans Google ou Bing (ou un autre moteur de recherche) .

Un robot d'indexation Web est comme quelqu'un qui passe en revue tous les livres d'une bibliothèque désorganisée et crée une forme de catalogue afin que quiconque visite la bibliothèque puisse trouver rapidement et facilement les informations dont il a besoin. Pour aider à catégoriser et à trier les livres de la bibliothèque par sujet, l'organisateur lira le titre, le résumé et une partie du texte interne de chaque livre pour comprendre de quoi il s'agit.

Toutefois, contrairement à une bibliothèque, Internet n'est pas composé de piles physiques de livres, ce qui rend difficile de dire si toutes les informations nécessaires ont été correctement indexées, ou si de grandes quantités d'entre elles sont ignorées. Pour essayer de trouver toutes les informations pertinentes qu'Internet doit fournir, un robot d'indexation Web commencera par un certain ensemble de pages Web connues, puis suivra les liens hypertexte de ces pages vers d'autres pages, suivra les liens hypertexte de ces autres pages vers des pages supplémentaires, etc. sur.

On ne sait pas quelle part d'Internet accessible au public est réellement explorée par les bots des moteurs de recherche. Certaines sources estiment que seulement 40 à 70 % d'Internet est indexé pour la recherche, et cela représente des milliards de pages Web.

Qu'est-ce que l'indexation de recherche ?

L'indexation de la recherche revient à créer un catalogue de cartes de bibliothèque pour Internet afin qu'un moteur de recherche sache où trouver des informations sur Internet lorsqu'une personne les recherche. Elle peut également être comparée à l'index au dos d'un livre, qui répertorie tous les endroits du livre où un certain sujet ou une phrase est mentionné.

L'indexation se concentre principalement sur le texte qui apparaît sur la page et sur les métadonnées *de la page que les utilisateurs ne voient pas. Lorsque la plupart des moteurs de recherche indexent une page, ils ajoutent tous les mots de la page à l'index, à l'exception des mots comme « un », « une » et « le », « la » dans le cas de Google. Lorsque les utilisateurs recherchent ces mots, le moteur de recherche parcourt son index de toutes les pages où ces mots apparaissent et sélectionne les plus pertinents.

*Dans le contexte de l'indexation de la recherche, les métadonnées sont des données qui indiquent aux moteurs de recherche ce qu'est une page Web. Souvent, le méta-titre et la méta-description sont les éléments qui apparaîtront sur les pages de résultats des moteurs de recherche, par opposition au contenu de la page Web visible par les utilisateurs.

Comment fonctionnent les robots d'indexation Web ?

Internet est en constante évolution et expansion. Parce qu'il n'est pas possible de savoir combien de pages Web il y a au total sur Internet, les robots d'indexation Web commencent à partir d'une graine ou d'une liste d'URL connues. Ils indexent d'abord les pages Web de ces URL. En indexant ces pages Web, ils trouveront des hyperliens vers d'autres URL et les ajouteront à la liste des pages à indexer ensuite.

Étant donné le grand nombre de pages Web sur Internet qui pourraient être indexées pour la recherche, ce processus pourrait se poursuivre presque indéfiniment. Toutefois, un robot d'indexation Web suivra certaines politiques qui le rendent plus sélectif sur les pages à indexer, dans quel ordre les indexer et à quelle fréquence ils doivent les indexer à nouveau pour vérifier les mises à jour de contenu.

L'importance relative de chaque page Web : la plupart des robot d'indexation Web n'indexent pas l'intégralité d'Internet accessible au public et ne sont pas destinés à le faire ; plutôt, ils décident quelles pages indexer en premier en fonction du nombre d'autres pages qui sont liées à cette page, du nombre de visiteurs que cette page reçoit et d'autres facteurs qui indiquent la probabilité que la page contienne des informations importantes.

L’idée

est qu’une page Web qui est citée par de nombreuses autres pages et qui compte de nombreux visiteurs est susceptible de contenir des informations de grande qualité et qui font autorité, il est donc particulièrement important qu’un moteur de recherche l’indexe, de la même façon qu’une bibliothèque s’assurera de disposer de plusieurs exemplaires d’un livre qui est emprunté par de nombreuses personnes.

Revisiter les pages Web : le contenu sur le Web est continuellement mis à jour, supprimé ou déplacé vers de nouveaux emplacements. Les robots d'indexation Web devront périodiquement revoir les pages pour s'assurer que la dernière version du contenu est indexée.

Exigences de Robots.txt : les robots d'indexation Web décident également des pages à indexer en fonction du protocole robots.txt (également appelé protocole d'exclusion des bots). Avant d'indexer une page Web, ils vérifieront le fichier robots.txt hébergé par le serveur Web de cette page. Un fichier robots.txt est un fichier texte qui précise les règles pour tout robot accédant au site Web ou à l'application hébergée. Ces règles définissent les pages que les bots peuvent indexer et les liens qu'ils peuvent suivre. À titre d'exemple, consultez le fichier robots.txt de Cloudflare.com.

Tous ces facteurs sont pondérés différemment dans les algorithmes propriétaires que chaque moteur de recherche intègre dans ses bots araignées. Les robots d'indexation de différents moteurs de recherche se comporteront légèrement de manière différente, bien que l'objectif final soit le même : télécharger et indexer le contenu des pages Web.

Pourquoi les robots d'indexation sont-ils appelés « araignées » ?

Internet, ou du moins la partie à laquelle la plupart des utilisateurs accèdent, est également connu sous le nom de World Wide Web. En fait, c'est de là que vient la partie « www » de la plupart des URL de sites Web. Il était naturel d'appeler les bots des moteurs de recherche des « araignées », car ils rampent partout sur le Web, tout comme les vraies araignées rampent sur des toiles d'araignées

Les robots d'indexation Web doivent-ils toujours être autorisés à accéder aux propriétés Web ?

Cela dépend de la propriété Web, et cela dépend d'un certain nombre de facteurs. Les robots d'indexation Web nécessitent des ressources de serveur pour indexer le contenu ; ils font des demandes auxquelles le serveur doit répondre, tout comme un utilisateur visitant un site Web ou d'autres bots accédant à un site Web. Selon la quantité de contenu sur chaque page ou le nombre de pages sur le site, il pourrait être dans l'intérêt de l'exploitant du site Web de ne pas autoriser l'indexation de recherche trop souvent, car une trop grande indexation pourrait surcharger le serveur, augmenter les coûts de bande passante, voire les deux.

De

plus, les développeurs ou les entreprises peuvent ne pas vouloir que certaines pages Web soient détectables à moins qu'un utilisateur n'ait déjà reçu un lien vers elles (sans mettre la page derrière un paywall ou une connexion). Un exemple d'un tel cas pour les entreprises est lorsqu'elles créent une page d'accueil dédiée pour une campagne marketing, mais elles ne veulent pas que quiconque non ciblé par la campagne accède à la page. De cette façon, elles peuvent personnaliser la messagerie ou mesurer précisément les performances de la page. Dans de tels cas, l'entreprise peut ajouter une balise « sans index » à la page d'accueil et elle n'apparaîtra pas dans les résultats des moteurs de recherche. Elles peuvent également ajouter une balise « interdire » dans la page ou dans le fichier robots.txt, et les araignées des moteurs de recherche ne l'indexeront pas du tout.

Les propriétaires de sites Web peuvent ne pas vouloir que les robots d'indexation Web explorent une partie ou la totalité de leurs sites pour diverses autres raisons également. Par exemple, un site Web qui offre aux utilisateurs la possibilité de rechercher dans le site peut vouloir bloquer les pages de résultats de recherche, car elles ne sont pas utiles pour la plupart des utilisateurs. Les autres pages générées automatiquement qui ne sont utiles qu'à un seul utilisateur ou à quelques utilisateurs spécifiques doivent également être bloquées.

Quelle est la différence entre l'indexation Web et le moissonnage web ?

Le moissonnage Web, le moissonnage de données ou le moissonnage de contenu, c'est quand un bot télécharge le contenu sur un site web sans autorisation, souvent avec l'intention d'utiliser ce contenu à des fins malveillantes.

Le moissonnage Web est généralement beaucoup plus ciblé que l'indexation Web. Les moissonneurs Web peuvent suivre des pages ou sites Web spécifiques uniquement, tandis que les robot d'indexation Web continueront à suivre les liens et les pages d'indexation en continu.

De plus, les bots d’extraction Web négligent généralement la pression qu’ils exercent sur les serveurs web, tandis que les robots d'indexation, principalement ceux des principaux moteurs de recherche, obéissent aux fichiers robots.txt et limitent leurs requêtes pour ne pas surcharger le serveur web.

Comment les robots d'indexation Web affectent-ils le SEO ?

SEO signifie Search Engine Optimization (optimisation pour les moteurs de recherche) et le terme fait référence à la discipline qui consiste à préparer du contenu pour l’indexation de recherche afin qu’un site Web apparaisse plus haut dans les résultats d’un moteur de recherche.

Si les bots araignées n'explorent pas un site Web, il ne peut pas être indexé et n'apparaîtra pas dans les résultats de recherche. Pour cette raison, si un propriétaire de site Web souhaite obtenir du trafic organique à partir des résultats de recherche, il est très important qu'il ne bloque pas les robot d'indexation Web.

Quels sont les robots d'indexation actifs sur Internet ?

Les bots des principaux moteurs de recherche sont appelés :

  • Google : Googlebot (en fait, deux robots d'indexation, Googlebot Desktop et Googlebot Mobile, pour les recherches sur ordinateur et sur mobile)
  • Bing : Bingbot
  • Yandex (moteur de recherche russe) : Yandex Bot
  • Baidu (moteur de recherche chinois) : Baidu Spider

Il existe également des robots d'indexation moins connus, dont certains ne sont associés à aucun moteur de recherche.

Pourquoi est il important de prendre en compte l’indexation web dans la gestion des bots ?

Les bots malveillants peuvent causer beaucoup de dégâts, de la mauvaise expérience utilisateur aux pannes de serveur en passant par le vol de données. Toutefois, en bloquant les bots malveillants, il est important de toujours autoriser les bons bots, tels que les robots d'indexation Web, à accéder aux propriétés Web. Cloudflare Bot Management permet aux bons bots de continuer à accéder aux sites Web tout en atténuant le trafic de bots malveillants. Le produit maintient une liste blanche des bons bots, comme les robots d'indexation Web, qui est automatiquement mise à jour pour éviter qu'ils ne soient bloqués.