What is a web crawler? | How web spiders work

A web crawler, or spider, is a type of bot that is typically operated by search engines like Google and Bing. Their purpose is to index the content of websites all across the Internet so that those websites can appear in search engine results.

Objectifs d’apprentissage

Cet article s'articule autour des points suivants :

  • Découvrir ce qu’est un robot d'indexation (ou araignée)
  • Comprendre comment un robot d'indexation choisit les pages à indexer
  • Expliquer la différence entre l’indexation et le web scraping
  • Déterminer si oui ou non l’indexation devrait être autorisée sur une page web donnée

Copier le lien de l'article

Qu'est-ce qu'un robot d'indexation ?

Un robot d'indexation, appelé aussi spider ou robot de moteur de recherche télécharge et indexe le contenu partout sur l'Internet. L’objectif d’un tel bot est d’apprendre ce que contiennent (presque) toutes les pages du Web afin que ces informations puisse être récupérées lorsque nécessaire. Ces robots sont appelés « robots d’indexation » parce que l’indexation est le terme technique qui désigne le fait d’accéder à un site web et d’obtenir des données par l'intermédiaire d'un logiciel.

Ces robots sont presque toujours exploités par les moteurs de recherche. En appliquant un algorithme de recherche aux données collectées par les robots d'indexation, les moteurs de recherche peuvent fournir des liens pertinents en réponse aux recherches des utilisateurs, et générer la liste des pages web qui s'affiche après qu'un utilisateur a saisi une recherche dans Google ou Bing (ou un autre moteur de recherche).

Un robot d'indexation est comme un bibliothécaire qui fait l'inventaire de tous les livres d'une bibliothèque désorganisée et crée un catalogue afin que les emprunteurs puissent trouver rapidement et facilement les informations dont il ont besoin. Pour classer les livres de la bibliothèque par sujet, le bibliothécaire lira le titre, le résumé et feuillettera rapidement chaque livre pour comprendre le sujet traité.

Web crawler bot organizing information

Toutefois, contrairement à une bibliothèque, Internet n'est pas composé de piles physiques de livres. Il est ainsi plus difficile de déterminer si toutes les informations nécessaires ont été correctement indexées, ou si de grandes quantités d'entre elles sont ignorées. Pour essayer de trouver toutes les informations pertinentes qu'Internet doit fournir, un robot d'indexation commencera par un ensemble de pages web connues, puis suivra les liens hypertexte de ces pages vers d'autres pages, suivra les liens hypertexte de ces autres pages vers des pages supplémentaires, et ainsi de suite.

On ne connaît pas la part d'Internet accessible au public qui est réellement explorée par les bots des moteurs de recherche. Certaines sources estiment que seulement 40 à 70 % d'Internet est indexé pour la recherche, et cela représente des milliards de pages web.

Qu'est-ce que l'indexation de la recherche ?

L'indexation de la recherche revient à créer un catalogue de fiches de bibliothèque pour Internet afin qu'un moteur de recherche sache où extraire les informations lorsqu'une personne les recherche. Elle peut également être comparée à l'index à la fin d'un livre, qui répertorie tous les endroits du livre où un certain sujet ou une certaine phrase est mentionné(e).

L'indexation se concentre principalement sur le texte qui apparaît sur la page et sur les métadonnées* de la page que les utilisateurs ne voient pas. Lorsque la plupart des moteurs de recherche indexent une page, ils ajoutent tous les mots de la page à l'index, à l'exception de mots grammaticaux comme « un », « une » et « le », « la » dans le cas de Google. Lorsque les utilisateurs recherchent ces mots, le moteur de recherche parcourt son index de toutes les pages où ces mots apparaissent et sélectionne les plus pertinentes.

* Dans le contexte de l'indexation de la recherche, les métadonnées sont des données qui indiquent aux moteurs de recherche le sujet d'une page web. Souvent, le méta-titre et la méta-description sont les éléments qui apparaîtront sur les pages de résultats des moteurs de recherche, par opposition au contenu de la page web visible par les utilisateurs.

Comment fonctionnent les robots d'indexation ?

Internet est en constante évolution et expansion. Parce qu'il n'est pas possible de savoir combien de pages web existent au total sur Internet, les robots d'indexation commencent à partir d'une graine, c'est-à-dire une liste d'URL connues. Ils exploreront d'abord les pages web de ces URL. En indexant ces pages web, ils trouveront des hyperliens vers d'autres URL et les ajouteront à la liste des pages à indexer ensuite.

Étant donné le grand nombre de pages web qui pourraient être indexées pour la recherche, ce processus pourrait se poursuivre presque indéfiniment. Toutefois, un robot d'indexation suivra certaines politiques qui le rendent plus sélectif sur les pages à indexer, dans quel ordre les indexer et à quelle fréquence ils doivent les indexer à nouveau pour vérifier les mises à jour de contenu.

Importance relative de chaque page web : la plupart des robot d'indexation n'indexent pas l'intégralité d'Internet accessible au public et ne sont pas prévus pour effectuer cette tâche. En fait, ils décident quelles pages indexer en premier en fonction du nombre des autres pages liées à cette page, du nombre de visiteurs que cette page reçoit ainsi que d'autres facteurs qui indiquent la probabilité que la page contienne des informations importantes.

L’idée est qu’une page web qui est citée par de nombreuses autres pages et qui compte de nombreux visiteurs est susceptible de contenir des informations de grande qualité qui font autorité. Il est donc particulièrement important qu’un moteur de recherche l’indexe, de la même façon qu’une bibliothèque veillera à avoir en rayons plusieurs exemplaires d’un livre qui est emprunté par de nombreuses personnes.

Nouvelle visite des pages web : le contenu du Web est continuellement mis à jour, supprimé ou déplacé vers de nouveaux endroits. Les robots d'indexation doivent régulièrement revisiter les pages pour s’assurer que la dernière version du contenu est indexée.

Robots.txt requirements: Web crawlers also decide which pages to crawl based on the robots.txt protocol (also known as the robots exclusion protocol). Before crawling a webpage, they will check the robots.txt file hosted by that page's web server. A robots.txt file is a text file that specifies the rules for any bots accessing the hosted website or application. These rules define which pages the bots can crawl, and which links they can follow. As an example, check out the Cloudflare.com robots.txt file.

Tous ces facteurs sont pondérés différemment dans les algorithmes propriétaires que chaque moteur de recherche intègre dans ses spiders. Les robots d'indexation de différents moteurs de recherche se comporteront de manière légèrement différente, bien que l'objectif final soit le même : télécharger et indexer le contenu des pages web.

Pourquoi les robots d'indexation sont-ils appelés « spiders » ?

Internet, ou du moins la partie à laquelle la plupart des utilisateurs accèdent, est également connu sous le nom de World Wide Web. En fait, c'est de là que vient la partie « www » de la plupart des URL de sites web. Il était naturel d'appeler les bots des moteurs de recherche des spiders (araignées), car ils se déplacent partout sur la toile (le web), comme les vraies araignées le font dans la nature sur leur toile.

Les robots d'indexation doivent-ils toujours être autorisés à accéder aux propriétés web ?

Cela dépend de la propriété web, et cela dépend d'un certain nombre de facteurs. Les robots d'indexation ont besoin des ressources d'un serveur pour indexer son contenu. Ils font des requêtes auxquelles le serveur doit répondre, tout comme un utilisateur ou d'autres bots accédant à un site web. Selon la quantité de contenu sur chaque page ou le nombre de pages sur le site, l'exploitant du site web pourrait avoir intérêt à ne pas autoriser l'indexation de recherche trop souvent, car une trop grande indexation pourrait surcharger le serveur, augmenter les coûts de bande passante, voire les deux.

De plus, les développeurs ou les entreprises peuvent ne pas vouloir que certaines pages web soient détectables à moins qu'un utilisateur n'ait déjà reçu un lien vers ces pages (sans mettre de mesure de restriction d'accès sur la page telle qu'un paywall ou une connexion). Un tel cas se produit pour les entreprises lorsqu'elles créent une page d'accueil spéciale pour une campagne marketing, mais qu'elles ne veulent pas qu'un consommateur non ciblé par la campagne accède à la page. De cette façon, elles peuvent personnaliser la messagerie ou mesurer précisément les performances de la page. Dans ce cas, l'entreprise peut ajouter une balise « no index » à la page d'accueil et elle n'apparaîtra pas dans les résultats des moteurs de recherche. Elles peuvent également ajouter une balise « disallow » (interdire) dans la page ou dans le fichier robots.txt, et les spiders ne l'exploreront pas.

Les propriétaires de sites web peuvent également ne pas vouloir que les robots d'indexation explorent une partie ou la totalité de leurs sites pour diverses autres raisons. Par exemple, un site web qui offre aux utilisateurs la possibilité de rechercher dans le site peut vouloir bloquer les pages de résultats de recherche, car elles ne sont pas utiles pour la plupart des utilisateurs. Les autres pages générées automatiquement qui ne sont utiles qu'à un seul utilisateur ou à quelques utilisateurs spécifiques doivent également être bloquées.

Quelle est la différence entre l'indexation web et le web scraping ?

Le scraping de données appelé aussi web scraping ou scraping de contenu se produit quand un bot télécharge le contenu d'un site web sans autorisation, souvent avec l'intention d'utiliser ce contenu à des fins malveillantes.

Le web scraping est généralement beaucoup plus ciblé que l'indexation. Les web scrapers peuvent se concentrer sur des pages ou sites web spécifiques uniquement, tandis que les robots d'indexation suivront les liens et les pages d'indexation en continu.

De plus, les bots de scraping négligent généralement la pression qu’ils exercent sur les serveurs web, tandis que les robots d'indexation, notamment ceux des principaux moteurs de recherche, obéissent aux fichiers robots.txt et limitent leurs requêtes pour ne pas surcharger le serveur web.

Comment les robots d'indexation affectent-ils le SEO ?

SEO signifie Search Engine Optimization (optimisation pour les moteurs de recherche, ou référencement naturel). Ce terme fait référence à la discipline qui consiste à préparer du contenu pour l’indexation de recherche afin qu’un site web apparaisse plus haut dans les résultats d’un moteur de recherche.

Si les spiders n'explorent pas un site web, celui-ci ne peut pas être indexé et n'apparaîtra pas dans les résultats de recherche. Aussi, si un propriétaire de site web souhaite obtenir du trafic généré par les résultats naturels à partir des résultats de recherche, il est très important qu'il ne bloque pas les robot d'indexation.

Quels sont les robots d'indexation actifs sur Internet ?

Les bots des principaux moteurs de recherche portent les noms suivants :

  • Google : Googlebot (en fait, deux robots d'indexation, Googlebot Desktop et Googlebot Mobile, pour les recherches sur ordinateur et sur mobile)
  • Bing : Bingbot
  • Yandex (moteur de recherche russe) : Yandex Bot
  • Baidu (moteur de recherche chinois) : Baidu Spider

Il existe également des robots d'indexation moins connus, dont certains ne sont associés à aucun moteur de recherche.

Pourquoi est il important de prendre en compte l’indexation web dans la gestion des bots ?

Bad bots can cause a lot of damage, from poor user experiences to server crashes to data theft. However, in blocking bad bots, it's important to still allow good bots, such as web crawlers, to access web properties. Cloudflare Bot Management allows good bots to keep accessing websites while still mitigating malicious bot traffic. The product maintains an automatically updated allowlist of good bots, like web crawlers, to ensure they aren't blocked. Smaller organizations can gain a similar level of visibility and control over their bot traffic with Super Bot Fight Mode, available on Cloudflare Pro and Business plans.