Ce ne sont pas seulement les mauvais bots qui doivent être gérés. Une stratégie de gestion des bots doit éviter de bloquer les bons bots tout en atténuant les mauvais.
Cet article s'articule autour des points suivants :
Contenu associé
Qu’est-ce qu’un bot ?
Qu’est ce que le trafic de bots ?
Qu’est-ce que la gestion des bots ?
Attaque par force brute
Qu'est-ce que le scraping de contenu ?
Abonnez-vous à theNET, le récapitulatif mensuel de Cloudflare des idées les plus populaires concernant Internet !
Copier le lien de l'article
Un bot est un programme informatique qui automatise les interactions avec les propriétés web sur Internet. Un « bon » bot est un bot qui exécute des tâches utiles ou profitables qui ne nuisent pas à l'expérience utilisateur sur Internet. Étant donné que les bons bots peuvent partager des caractéristiques identiques avec les bots malveillants, le défi consiste à garantir que les bons bots ne seront pas bloqués lors de la mise en place d'une stratégie de gestion des bots.
Il existe de nombreux types de bons bots, chacun étant conçu pour différentes tâches. Voici quelques exemples :
Les propriétés web doivent s'assurer qu'elles ne bloquent pas ces types de bots lorsqu'elles tentent de filtrer le trafic de bots malveillants. Il est particulièrement important que les robots d'indexation web des moteurs de recherche ne soient pas bloqués, car sans eux, un site Web ne peut pas apparaître dans les résultats de recherche.
Les mauvais bots peuvent voler des données, pénétrer dans des comptes d'utilisateurs, envoyer des données indésirables via des formulaires en ligne et effectuer d'autres activités malveillantes. Les mauvais bots comprennent les bots de credential stuffing, les bots de scraping de contenu, les bots de spam et les bots de fraude au clic.
Une bonne gestion des bots commence par la configuration correcte des règles dans le fichier robots.txt d'un site Web. Un fichier robots.txt est un fichier texte qui réside sur un serveur web et indique les règles pour tous les bots accédant au site Web ou à l'application hébergés. Ces règles définissent les pages que les bots peuvent et ne peuvent pas visiter, les liens qu'ils doivent et ne doivent pas suivre, ainsi que d'autres exigences relatives à leur comportement.
Les bons bots suivront ces règles. Par exemple, si un propriétaire de site web ne souhaite pas qu'une certaine page de son site apparaisse dans les résultats de recherche Google, il peut écrire une règle dans le fichier robots.txt, et les robots d'indexation de sites web de Google n'indexeront pas cette page. Bien que le fichier robots.txt ne puisse pas réellement faire respecter ces règles, les bons bots sont programmés pour rechercher le fichier et suivre les règles avant tout autre action.
Cependant, les mauvais bots ignoreront souvent le fichier robots.txt ou le liront pour savoir quel contenu un site Web essaie de garder hors de portée des bots, puis accèderont à ce contenu. Ainsi, la gestion des bots nécessite une approche plus active que la simple présentation de règles de comportement des bots dans le fichier robots.txt.
Une liste verte peut être comparée à une liste d'invités pour une réception. Si une personne qui ne figure pas sur la liste des invités essaie de participer à la réception, le personnel de sécurité la bloquera à l'entrée. Toute personne figurant sur la liste peut participer librement à la réception. Un tel filtrage est nécessaire car des invités indésirables peuvent mal se comporter et gâcher la fête pour tout le monde.
Pour la gestion des bots, c'est essentiellement comme ça que fonctionnent les listes vertes. Une liste d'autorisation est une liste de robots qui sont autorisés à accéder à une propriété web. En général, cela se fait par le biais de ce que l'on appelle l'« agent utilisateur », l'adresse IP du robot, ou une combinaison des deux. Un agent utilisateur est une chaîne de texte qui identifie le type d'utilisateur (ou de robot) sur un serveur Web.
En maintenant à jour une liste d'agents utilisateurs de bons bots autorisés, tels que ceux appartenant aux moteurs de recherche, puis en bloquant tous les bots ne figurant pas sur la liste, un serveur web peut garantir l'accès aux bons bots.
Les serveurs web peuvent également avoir une liste de blocage de bots malveillants connus.
Une liste de blocage, dans les réseaux, est une liste d'adresses IP, d'agents utilisateurs ou d'autres indicateurs d'identité en ligne qui ne sont pas autorisés à accéder à un serveur, un réseau ou une propriété web. Il s'agit d'une approche légèrement différente de l'utilisation d'une liste verte : une stratégie de gestion des bots basée sur une liste noire bloquera ces bots spécifiques et autorisera tous les autres bots, tandis qu'une stratégie basée sur une liste blanche n'autorisera que les bots spécifiés et bloquera tous les autres.
Il est possible pour un bot malveillant de truquer sa chaîne d'agent utilisateur afin de ressembler à un bon bot, au moins au début, tout comme un voleur pourrait utiliser une fausse carte d'identité en prétendant être sur la liste des invités et se faufiler dans un événement.
Par conséquent, pour détecter l'usurpation, les listes blanches de bons bots doivent être combinées avec d'autres techniques telles que l'analyse comportementale ou l'apprentissage automatique. Cela permet d'identifier proactivement les mauvais bots et les bons bots inconnus, en plus de la simple autorisation des bons bots connus.
Un produit de gestion des robots permet aux bons robots d'accéder à une propriété web tout en bloquant les mauvais robots. Cloudflare Bot Management utilise l'apprentissage automatique et l'analyse comportementale du trafic sur l'ensemble de son réseau pour détecter les mauvais robots tout en autorisant automatiquement et continuellement les bons robots. Une fonctionnalité similaire est disponible pour les petites organisations avec Super Bot Fight Mode, désormais inclus dans les offres Cloudflare Pro et Business.