Comment gérer les bons bots | Bons bots vs bots malveillants

Ce ne sont pas seulement les bots malveillants qui doivent être gérés. Une stratégie de gestion des bots doit éviter de bloquer les bons bots tout en atténuant les mauvais.

Share facebook icon linkedin icon twitter icon email icon

Gérer les bons bots

Objectifs d’apprentissage

Après avoir lu cet article, vous pourrez :

  • Apprenez la différence entre les bons et les bots malveillants
  • Comprendre ce qui fait qu'un bon bot est « bon » et pourquoi les bons bots doivent pouvoir accéder aux propriétés Web
  • Comprendre les stratégies efficaces pour gérer les bons bots et les bots malveillants

Que sont les bons bots ?

Un bot est un programme informatique qui automatise les interactions avec les propriétés Web sur Internet. Un « bon » bot est un bot qui exécute des tâches utiles ou profitables qui ne nuisent pas à l'expérience d'un utilisateur sur Internet. Étant donné que les bons bots peuvent partager des caractéristiques identiques avec des bots malveillants, le défi consiste à garantir que les bons bots ne sont pas bloqués lors de l'élaboration d'une stratégie de gestion des bots.

Il existe de nombreux types de bons bots, chacun étant conçu pour différentes tâches. Voici quelques exemples :

  • Bots des moteurs de recherche : également appelés robot d'indexation ou araignées Web : ces bots « explorent » ou examinent le contenu de presque tous les sites Web sur Internet, puis indexent ce contenu afin qu'il puisse apparaître dans les résultats des moteurs de recherche pour les recherches pertinentes des utilisateurs. Ils sont exploités par des moteurs de recherche comme Google, Bing ou Yandex.
  • Bots de droits d'auteur : bots qui explorent des plateformes ou des sites Web à la recherche de contenu pouvant enfreindre la loi sur les droits d'auteur Ces bots peuvent être exploités par toute personne ou entreprise propriétaire de matériel protégé par des droits d'auteur. Les bots de droits d'auteur peuvent rechercher un texte, de la musique, des images ou même des vidéos en double.
  • Bots de surveillance de site : ces bots surveillent les mesures du site Web, par exemple, la surveillance des liens retour ou des pannes de système, et peuvent alerter les utilisateurs des changements majeurs ou des temps d'arrêt. Par exemple, Cloudflare exploite un robot d'indexation appelé Always Online qui indique au réseau Cloudflare de fournir une version mise en cache d'une page Web si le serveur d'origine est en panne.
  • Bots commerciaux : bots exploités par des sociétés commerciales qui explorent Internet pour trouver des informations. Ces bots peuvent être exploités par des sociétés d'études de marché qui surveillent les bulletins d'actualités ou les commentaires des clients, les réseaux optimisant les endroits où ils affichent des annonces ou les agences de SEO qui explorent les sites Web des clients.
  • Bots de fil : ces bots explorent Internet à la recherche de contenu digne d'intérêt à ajouter au fil d'actualité d'une plateforme. Les sites de contenus multisources ou les réseaux de médias sociaux peuvent les utiliser.
  • Agents de dialogue : les agents de dialogue imitent la conversation humaine en répondant aux utilisateurs avec des réponses préprogrammées. Certains agents de dialogue sont suffisamment complexes pour poursuivre de longues conversations.
  • Bots d'assistants personnels : comme Siri ou Alexa : Bien que ces programmes soient beaucoup plus avancés que les bots classiques, ce sont néanmoins des bots : des programmes informatiques qui parcourent le Web à la recherche des données.

Bons bots vs mauvais bots

Les propriétés Web doivent s'assurer qu'elles ne bloquent pas ces types de bots car ils tentent de filtrer le trafic de bots malveillants. Il est particulièrement important que les robots d'indexation web des moteurs de recherche ne soient pas bloqués, car sans eux, un site Web ne peut pas apparaître dans les résultats de recherche.

Les bots malveillants peuvent voler des données, pénétrer dans des comptes d'utilisateurs, envoyer des données indésirables via des formulaires en ligne et effectuer d'autres activités malveillantes. Parmi les bots malveillants nous avons les bots d'infiltration de compte, les bots d'extraction de contenu, les bots collecteurs de mails et les bots de fraude aux clics.

Qu'est-ce que robots.txt ?

Une bonne gestion des bots commence par la configuration correcte des règles dans le fichier robots.txt d'un site Web. Un fichier robots.txt est un fichier texte qui réside sur un serveur Web et indique les règles pour tout bot accédant au site Web ou à l'application hébergé. Ces règles définissent les pages que les bots peuvent et ne peuvent pas explorer, les liens qu'ils doivent et ne doivent pas suivre, ainsi que d'autres exigences relatives au comportement des bots.

Les bons bots suivront ces règles. Par exemple, si un propriétaire de site Web ne souhaite pas qu'une certaine page de son site apparaisse dans les résultats de recherche Google, il peut écrire une règle dans le fichier robots.txt et les robots d'indexation de sites Web de Google n'indexeront pas cette page. Bien que le fichier robots.txt ne puisse pas réellement faire respecter ces règles, les bons bots sont programmés pour rechercher le fichier et suivre les règles avant de faire quoi que ce soit d'autre.

Cependant, les bots malveillants ignorent souvent le fichier robots.txt ou le lisent pour savoir quel contenu un site Web essaie de garder hors de portée des bots, puis accèdent à ce contenu. Ainsi, la gestion des bots nécessite une approche plus active que la simple présentation des règles de comportement des bots dans le fichier robots.txt.

Qu'est-ce qu'une liste blanche ?

Considérez une liste blanche comme une liste d'invités pour une cérémonie. Si quelqu'un qui ne figure pas sur la liste des invités essaie de participer à la cérémonie, le personnel de sécurité l'empêchera d'y entrer. Toute personne figurant sur la liste peut participer librement à la cérémonie. Une telle approche est nécessaire car les invités indésirables peuvent se comporter mal et gâcher la fête pour tout le monde.

Pour la gestion des bots, c'est essentiellement ainsi que fonctionnent les listes blanches. Une liste blanche est une liste de bots autorisés à accéder à une propriété Web. (Une liste blanche est l'opposé d'une liste noire ; d'où le nom.). En général, cela fonctionne via un élément appelé « agent utilisateur », adresse IP du bot, ou une combinaison des deux. Un agent utilisateur est une chaîne de texte qui identifie le type d'utilisateur (ou bot) d'un serveur Web.

En conservant une liste d'agents utilisateurs de bons bots autorisés, tels que ceux appartenant aux moteurs de recherche, puis en bloquant tous les bots ne figurant pas sur la liste, un serveur Web peut garantir l'accès aux bons bots.

Les serveurs Web peuvent également avoir une liste noire de bots malveillants connus.

Qu'est-ce qu'une liste noire ?

Une liste noire, dans le contexte de la mise en réseau, est une liste d'adresses IP, d'agents utilisateurs ou d'autres indicateurs d'identité en ligne qui ne sont pas autorisés à accéder à un serveur, un réseau ou une propriété Web. Il s'agit d'une approche légèrement différente de l'utilisation d'une liste blanche : une stratégie de gestion des bots basée sur la liste noire bloquera ces bots spécifiques et autorisera tous les autres bots, tandis qu'une stratégie basée sur la liste blanche n'autorise que les bots spécifiés et bloque tous les autres

Les listes blanches sont-elles suffisantes pour laisser entrer les bons bots et exclure ceux qui sont malveillants ?

Il est possible pour un bot malveillant de truquer sa chaîne d'agent utilisateur afin de ressembler à un bon bot, au moins au début, tout comme un voleur pourrait utiliser une fausse carte d'identité pour faire semblant d'être sur la liste des invités et s'infiltrer dans la foule.

Par conséquent, les listes blanches de bons robots doivent être combinées avec d'autres approches pour détecter l'usurpation d'identité, telles que l'analyse comportementale ou l'apprentissage machine. Cela permet d'identifier proactivement les bots malveillants et les bons bots inconnus, en plus d'autoriser simplement les bons bots connus.

Que fait une solution de gestionnaire de bot ?

Un produit de gestionnaire de bots permet aux bons bots d'accéder à une propriété Web tout en bloquant les bots malveillants. Cloudflare Bot Management utilise l'apprentissage machine et l'analyse comportementale du trafic sur l'ensemble de son réseau pour détecter les bots malveillants tout en ajoutant automatiquement et continuellement de bons bots sur la liste blanche.