Comment gérer les bons bots | Bons bots ou mauvais bots

Ce ne sont pas seulement les mauvais bots qui doivent être gérés. Une stratégie de gestion des bots doit éviter de bloquer les bons bots tout en atténuant les mauvais.

Objectifs d’apprentissage

Cet article s'articule autour des points suivants :

  • Apprenez la différence entre les bons et mauvais bots
  • Comprendre ce qui fait qu'un bon bot est « bon » et pourquoi les bons bots doivent pouvoir accéder aux propriétés web
  • Comprendre les stratégies efficaces pour gérer les bons bots et les mauvais bots

Contenu associé


Vous souhaitez continuer à enrichir vos connaissances ?

Abonnez-vous à theNET, le récapitulatif mensuel de Cloudflare des idées les plus populaires concernant Internet !

Consultez la politique de confidentialité de Cloudflare pour en savoir plus sur la manière dont nous collectons et traitons vos données personnelles.

Copier le lien de l'article

Qu'entend-on par bons bots ?

Bons bots - chatbot, bot de surveillance, bot de moteur de recherche

Un bot est un programme informatique qui automatise les interactions avec les propriétés web sur Internet. Un « bon » bot est un bot qui exécute des tâches utiles ou profitables qui ne nuisent pas à l'expérience utilisateur sur Internet. Étant donné que les bons bots peuvent partager des caractéristiques identiques avec les bots malveillants, le défi consiste à garantir que les bons bots ne seront pas bloqués lors de la mise en place d'une stratégie de gestion des bots.

Il existe de nombreux types de bons bots, chacun étant conçu pour différentes tâches. Voici quelques exemples :

  • Bots de moteur de recherche : également appelés robot d'indexation, web crawlers ou web spiders : ces bots « explorent » ou examinent le contenu de presque tous les sites Web sur Internet, puis indexent ce contenu afin qu'il puisse apparaître dans les résultats des moteurs de recherche pour répondre aux demandes des utilisateurs. Ces bots sont exploités par des moteurs de recherche comme Google, Bing ou Yandex.
  • Bots de droits d'auteur : bots qui explorent des plateformes ou des sites Web à la recherche de contenu pouvant enfreindre la loi sur les droits d'auteur. Ces bots peuvent être exploités par toute personne ou entreprise propriétaire de matériel protégé par des droits d'auteur. Les bots de droits d'auteur peuvent rechercher des œuvres reproduites, telles que des textes, de la musique, des images ou même des vidéos.
  • Bots de surveillance de site : ces bots surveillent les indicateurs des sites Web, par exemple, la surveillance des backlinks (liens entrants) ou des pannes de système, et peuvent alerter les utilisateurs des changements majeurs ou des temps d'arrêt. Par exemple, Cloudflare exploite un robot d'indexation appelé Always Online qui indique au réseau Cloudflare de fournir une version mise en cache d'une page web si le serveur d'origine est en panne.
  • Bots commerciaux : bots exploités par des entreprises commerciales qui explorent Internet pour trouver des informations. Ces bots peuvent être exploités par des sociétés d'études de marché qui surveillent les bulletins d'actualités ou les revues clients, par des réseaux qui optimisent les endroits où ils affichent des annonces ou encore par des agences de SEO qui explorent les sites Web des clients.
  • Bots de fil d'actualités : ces bots explorent Internet à la recherche de contenu digne d'intérêt à ajouter au fil d'actualités d'une plateforme. Les sites agrégateur de contenus ou les réseaux de médias sociaux peuvent les utiliser.
  • Chatbots : les chatbots (aussi appelés dialogueurs ou agents conversationnels) imitent la conversation humaine en répondant aux utilisateurs avec des réponses préprogrammées. Certains agents de dialogue sont suffisamment complexes pour poursuivre de longues conversations.
  • Bots assistants personnels : comme Siri ou Alexa : bien que ces programmes soient beaucoup plus avancés que les bots classiques, ce sont néanmoins des bots : des programmes informatiques qui parcourent le web à la recherche de données.

Bons bots ou mauvais bots

Les propriétés web doivent s'assurer qu'elles ne bloquent pas ces types de bots lorsqu'elles tentent de filtrer le trafic de bots malveillants. Il est particulièrement important que les robots d'indexation web des moteurs de recherche ne soient pas bloqués, car sans eux, un site Web ne peut pas apparaître dans les résultats de recherche.

Les mauvais bots peuvent voler des données, pénétrer dans des comptes d'utilisateurs, envoyer des données indésirables via des formulaires en ligne et effectuer d'autres activités malveillantes. Les mauvais bots comprennent les bots de credential stuffing, les bots de scraping de contenu, les bots de spam et les bots de fraude au clic.

Qu'est-ce que robots.txt ?

Une bonne gestion des bots commence par la configuration correcte des règles dans le fichier robots.txt d'un site Web. Un fichier robots.txt est un fichier texte qui réside sur un serveur web et indique les règles pour tous les bots accédant au site Web ou à l'application hébergés. Ces règles définissent les pages que les bots peuvent et ne peuvent pas visiter, les liens qu'ils doivent et ne doivent pas suivre, ainsi que d'autres exigences relatives à leur comportement.

Les bons bots suivront ces règles. Par exemple, si un propriétaire de site web ne souhaite pas qu'une certaine page de son site apparaisse dans les résultats de recherche Google, il peut écrire une règle dans le fichier robots.txt, et les robots d'indexation de sites web de Google n'indexeront pas cette page. Bien que le fichier robots.txt ne puisse pas réellement faire respecter ces règles, les bons bots sont programmés pour rechercher le fichier et suivre les règles avant tout autre action.

Cependant, les mauvais bots ignoreront souvent le fichier robots.txt ou le liront pour savoir quel contenu un site Web essaie de garder hors de portée des bots, puis accèderont à ce contenu. Ainsi, la gestion des bots nécessite une approche plus active que la simple présentation de règles de comportement des bots dans le fichier robots.txt.

Qu'est-ce qu'une liste verte ?

Une liste verte peut être comparée à une liste d'invités pour une réception. Si une personne qui ne figure pas sur la liste des invités essaie de participer à la réception, le personnel de sécurité la bloquera à l'entrée. Toute personne figurant sur la liste peut participer librement à la réception. Un tel filtrage est nécessaire car des invités indésirables peuvent mal se comporter et gâcher la fête pour tout le monde.

Pour la gestion des bots, c'est essentiellement comme ça que fonctionnent les listes vertes. Une liste d'autorisation est une liste de robots qui sont autorisés à accéder à une propriété web. En général, cela se fait par le biais de ce que l'on appelle l'« agent utilisateur », l'adresse IP du robot, ou une combinaison des deux. Un agent utilisateur est une chaîne de texte qui identifie le type d'utilisateur (ou de robot) sur un serveur Web.

En maintenant à jour une liste d'agents utilisateurs de bons bots autorisés, tels que ceux appartenant aux moteurs de recherche, puis en bloquant tous les bots ne figurant pas sur la liste, un serveur web peut garantir l'accès aux bons bots.

Les serveurs web peuvent également avoir une liste de blocage de bots malveillants connus.

Qu'est-ce qu'une liste de blocage ?

Une liste de blocage, dans les réseaux, est une liste d'adresses IP, d'agents utilisateurs ou d'autres indicateurs d'identité en ligne qui ne sont pas autorisés à accéder à un serveur, un réseau ou une propriété web. Il s'agit d'une approche légèrement différente de l'utilisation d'une liste verte : une stratégie de gestion des bots basée sur une liste noire bloquera ces bots spécifiques et autorisera tous les autres bots, tandis qu'une stratégie basée sur une liste blanche n'autorisera que les bots spécifiés et bloquera tous les autres.

Les listes vertes sont-elles suffisantes pour laisser les bons bots accéder à un site et exclure les mauvais bots ?

Il est possible pour un bot malveillant de truquer sa chaîne d'agent utilisateur afin de ressembler à un bon bot, au moins au début, tout comme un voleur pourrait utiliser une fausse carte d'identité en prétendant être sur la liste des invités et se faufiler dans un événement.

Par conséquent, pour détecter l'usurpation, les listes blanches de bons bots doivent être combinées avec d'autres techniques telles que l'analyse comportementale ou l'apprentissage automatique. Cela permet d'identifier proactivement les mauvais bots et les bons bots inconnus, en plus de la simple autorisation des bons bots connus.

Que fait une solution de gestion des bots ?

Un produit de gestion des robots permet aux bons robots d'accéder à une propriété web tout en bloquant les mauvais robots. Cloudflare Bot Management utilise l'apprentissage automatique et l'analyse comportementale du trafic sur l'ensemble de son réseau pour détecter les mauvais robots tout en autorisant automatiquement et continuellement les bons robots. Une fonctionnalité similaire est disponible pour les petites organisations avec Super Bot Fight Mode, désormais inclus dans les offres Cloudflare Pro et Business.