Comment gérer les bons bots | Bons bots ou mauvais bots

Ce ne sont pas seulement les mauvais bots qui doivent être gérés. Une stratégie de gestion des bots doit éviter de bloquer les bons bots tout en atténuant les mauvais.

Share facebook icon linkedin icon twitter icon email icon

Gérer les bons bots

Objectifs d’apprentissage

Après avoir lu cet article, vous pourrez :

  • Apprenez la différence entre les bons et mauvais bots
  • Comprendre ce qui fait qu'un bon bot est « bon » et pourquoi les bons bots doivent pouvoir accéder aux propriétés web
  • Comprendre les stratégies efficaces pour gérer les bons bots et les mauvais bots

Qu'entend-on par bons bots ?

Un bot est un programme informatique qui automatise les interactions avec les propriétés web sur Internet. Un « bon » bot est un bot qui exécute des tâches utiles ou profitables qui ne nuisent pas à l'expérience utilisateur sur Internet. Étant donné que les bons bots peuvent partager des caractéristiques identiques avec mes mauvais bots, le défi consiste à garantir que les bons bots ne seront pas bloqués lors de la mise en place d'une stratégie de gestion des bots.

Il existe de nombreux types de bons bots, chacun étant conçu pour différentes tâches. Voici quelques exemples :

  • Bots de moteur de recherche : également appelés robot d'indexation, web crawlers ou web spiders : ces bots « explorent » ou examinent le contenu de presque tous les sites web sur Internet, puis indexent ce contenu afin qu'il puisse apparaître dans les résultats des moteurs de recherche pour répondre aux demandes des utilisateurs. Ces bots sont exploités par des moteurs de recherche comme Google, Bing ou Yandex.
  • Bots de droits d'auteur : bots qui explorent des plateformes ou des sites web à la recherche de contenu pouvant enfreindre la loi sur les droits d'auteur. Ces bots peuvent être exploités par toute personne ou entreprise propriétaire de matériel protégé par des droits d'auteur. Les bots de droits d'auteur peuvent rechercher des œuvres reproduites, telles que des textes, de la musique, des images ou même des vidéos.
  • Bots de surveillance de site : ces bots surveillent les indicateurs des sites web, par exemple, la surveillance des backlinks (liens entrants) ou des pannes de système, et peuvent alerter les utilisateurs des changements majeurs ou des temps d'arrêt. Par exemple, Cloudflare exploite un robot d'indexation appelé Always Online qui indique au réseau Cloudflare de fournir une version mise en cache d'une page web si le serveur d'origine est en panne.
  • Bots commerciaux : bots exploités par des sociétés commerciales qui explorent Internet pour trouver des informations. Ces bots peuvent être exploités par des sociétés d'études de marché qui surveillent les bulletins d'actualités ou les revues clients, par des réseaux qui optimisent les endroits où ils affichent des annonces ou encore par des agences de SEO qui explorent les sites web des clients.
  • Bots de fil d'actualités : ces bots explorent Internet à la recherche de contenu digne d'intérêt à ajouter au fil d'actualités d'une plateforme. Les sites agrégateur de contenus ou les réseaux de médias sociaux peuvent les utiliser.
  • Chatbots : les chatbots (aussi appelés dialogueurs ou agents conversationnels) imitent la conversation humaine en répondant aux utilisateurs avec des réponses préprogrammées. Certains agents de dialogue sont suffisamment complexes pour poursuivre de longues conversations.
  • Bots assistants personnels : comme Siri ou Alexa : bien que ces programmes soient beaucoup plus avancés que les bots classiques, ce sont néanmoins des bots : des programmes informatiques qui parcourent le web à la recherche de données.

Bons bots ou mauvais bots

Les propriétés web doivent s'assurer qu'elles ne bloquent pas ces types de bots lorsqu'elles tentent de filtrer le trafic de bots malveillants. Il est particulièrement important que les robots d'indexation web des moteurs de recherche ne soient pas bloqués, car sans eux, un site web ne peut pas apparaître dans les résultats de recherche.

Les mauvais bots peuvent voler des données, pénétrer dans des comptes d'utilisateurs, envoyer des données indésirables via des formulaires en ligne et effectuer d'autres activités malveillantes. Les mauvais bots comprennent les bots de credential stuffing, les bots de scraping de contenu, les bots de spam et les bots de fraude au clic.

Qu'est-ce que robots.txt ?

Une bonne gestion des bots commence par la configuration correcte des règles dans le fichier robots.txt d'un site web. Un fichier robots.txt est un fichier texte qui réside sur un serveur web et indique les règles pour tous les bots accédant au site web ou à l'application hébergés. Ces règles définissent les pages que les bots peuvent et ne peuvent pas visiter, les liens qu'ils doivent et ne doivent pas suivre, ainsi que d'autres exigences relatives à leur comportement.

Les bons bots suivront ces règles. Par exemple, si un propriétaire de site web ne souhaite pas qu'une certaine page de son site apparaisse dans les résultats de recherche Google, il peut écrire une règle dans le fichier robots.txt, et les robots d'indexation de sites web de Google n'indexeront pas cette page. Bien que le fichier robots.txt ne puisse pas réellement faire respecter ces règles, les bons bots sont programmés pour rechercher le fichier et suivre les règles avant tout autre action.

Cependant, les mauvais bots ignoreront souvent le fichier robots.txt ou le liront pour savoir quel contenu un site web essaie de garder hors de portée des bots, puis accèderont à ce contenu. Ainsi, la gestion des bots nécessite une approche plus active que la simple présentation de règles de comportement des bots dans le fichier robots.txt.

Qu'est-ce qu'une liste blanche ?

Une liste blanche peut être comparée à une liste d'invités pour une réception. Si une personne qui ne figure pas sur la liste des invités essaie de participer à la réception, le personnel de sécurité la bloquera à l'entrée. Toute personne figurant sur la liste peut participer librement à la réception. Un tel filtrage est nécessaire car des invités indésirables peuvent mal se comporter et gâcher la fête pour tout le monde.

C'est essentiellement ainsi que fonctionnent les listes blanches pour la gestion des bots. Une liste blanche est une liste de bots autorisés à accéder à une propriété web. (Une liste blanche est l'opposée d'une liste noire, d'où son nom.). En général, elle fonctionne via un élément appelé « agent utilisateur », l'adresse IP du bot, ou une combinaison des deux. Un agent utilisateur est une chaîne de texte qui identifie le type d'utilisateur (ou bot) d'un serveur web.

En maintenant à jour une liste d'agents utilisateurs de bons bots autorisés, tels que ceux appartenant aux moteurs de recherche, puis en bloquant tous les bots ne figurant pas sur la liste, un serveur web peut garantir l'accès aux bons bots.

Les serveurs web peuvent également avoir une liste noire de bots malveillants connus.

Qu'est-ce qu'une liste noire ?

Une liste noire, dans les réseaux, est une liste d'adresses IP, d'agents utilisateurs ou d'autres indicateurs d'identité en ligne qui ne sont pas autorisés à accéder à un serveur, un réseau ou une propriété web. Il s'agit d'une approche légèrement différente de l'utilisation d'une liste blanche : une stratégie de gestion des bots basée sur une liste noire bloquera ces bots spécifiques et autorisera tous les autres bots, tandis qu'une stratégie basée sur une liste blanche n'autorisera que les bots spécifiés et bloquera tous les autres

Les listes blanches sont-elles suffisantes pour laisser les bons bots accéder à un site et exclure les mauvais bots ?

Il est possible pour un bot malveillant de truquer sa chaîne d'agent utilisateur afin de ressembler à un bon bot, au moins au début, tout comme un voleur pourrait utiliser une fausse carte d'identité en prétendant être sur la liste des invités et se faufiler dans un événement.

Par conséquent, les listes blanches de bons robots doivent être combinées avec d'autres approches pour détecter l'usurpation, telles que l'analyse comportementale ou l'apprentissage automatique. Cela permet d'identifier proactivement les mauvais bots et les bons bots inconnus, en plus d'autoriser simplement les bons bots connus.

Que fait une solution de gestion des bots ?

Un gestionnaire de bots permet aux bons bots d'accéder à une propriété web tout en bloquant les mauvais bots. Cloudflare Bot Management utilise l'apprentissage automatique et l'analyse comportementale du trafic sur l'ensemble de son réseau pour détecter les mauvais bots, tout en ajoutant automatiquement et continuellement de bons bots sur la liste blanche.