Qu’est ce que la gestion des bots ? | Comment fonctionnent les gestionnaires de bots

La gestion des bots consiste à identifier et bloquer les bots d’un site internet ou d’une application tout en autorisant l’accès aux autres bots.

Share facebook icon linkedin icon twitter icon email icon

Gestion des robots

Objectifs d’apprentissage

Après avoir lu cet article, vous pourrez :

  • Comprendre ce que font les bots et pourquoi il est nécessaire de les gérer
  • Découvrir ce que font les produits de gestion des bots
  • Découvrir pourquoi certains bots doivent être autorisés et d’autres bloqués

Qu’est ce que la gestion des bots ?

La gestion des bots désigne le blocage du trafic bot Internet malveillant ou indésirable tout en autorisant l’accès aux propriétés Web aux bots utiles. La gestion des bots accomplit ce tri en détectant l’activité bot, pour discerner les comportements bot souhaités des comportements indésirables, et identifier les sources de l’activité indésirable.

La gestion des bots est nécessaire car les bots, s’ils ne sont pas contrôlés, peuvent provoquer d’importants problèmes pour les propriétés Web. Trop de trafic Web peut faire peser une charge importante sur les serveurs Web, avec pour effet un ralentissement voir un déni de service pour les utilisateurs légitimes (parfois sous la forme d’une attaque DDoS). Les bots malveillants peuvent extraire ou télécharger du contenu d’un site Web, voler des identifiants, propager rapidement du contenu spam et effectuer diverses autres cyberattaques.

Que fait un gestionnaire de bots ?

Un gestionnaire de bots est un produit logitiel qui gère les bots. Les gestionnaires de bots doivent pouvoir bloquer certains bots tout en en autorisant d’autres, plutôt que de bloquer tout le trafic non humain. Si tous les bots sont bloqués et que les bots Google ne peuvent pas indexer une page, par exemple, alors cette page n’apparaitra pas dans les recherches Google, ce qui réduit fortement tout trafic direct vers ce site.

Un bon gestionnaire de bots atteint les objectifs suivants. Il peut :

  • Identifier les bots et les visiteurs humains
  • Identifier la réputation d’un bot
  • Identifier les adresses IP d’origine d’un bot et bloquer selon la réputation des adresses IP
  • Analyser le comportement des bots
  • Ajouter les « bons » bots à des listes blanches
  • Mettre au défi les bots supposés grâce à un test CAPTCHA, une injection JavaScript ou une autre méthode.
  • Limiter le débit de tout bot sur-utilisant un service
  • Refuser l’accès à certains contenus ou ressources pour les « mauvais » bots
  • Diffuser du contenu alternatif aux bots

Qu’est-ce qu’un bot ?

Un bot est un agent logiciel qui fonctionne sur un réseau. Les bots sont programmés pour effectuer certaines actions. Les tâches effectuées par un bot sont généralement assez simples, mais un bot peut les répéter à une vitesse bien plus élevé qu’un humain.

Par exemple, Google utilise des bots pour parcourir sans cesse les pages Web et indexer le contenu pour les recherches. Une équipe d’humains aurait besoin d’un temps astronomique pour revoir tout le contenu Internet, mais les bots de Google sont en mesure d’assurer que l’indexe de recherche de Google est raisonnablement à jour.

Comme exemple négatif, citons les escrocs qui utilisent les bots de collecte d’e-mail pour recueillir des adresses un peu partout sur Internet. Les bots parcourent les pages Web, recherchent du texte suivant un format e-mail (texte + symbole @ + domaine), et l’enregistrent dans une base de données. Naturellement, un humain pourrait parcourir les pages Web à la recherche d’adresses mail, mais parce que ces bots de collecte d’e-mail sont automatisés, et ne cherchent que du texte répondant à certains critères, ils trouvent des adresses mail beaucoup plus rapidement.

Contrairement à un utilisateur humain qui accède à Internet, un bot n’accède généralement pas à Internet par un navigateur traditionnel comme Google Chrome ou Mozilla Firefox. Plutôt que d’utiliser une souris (ou un smartphone) et de cliquer sur un contenu visuel dans un navigateur, les bots sont simplement des agents logiciels qui lance des requêtes HTTP (parmi d’autres activités) généralement en utilisant ce que l’on appelle un « navigateur sans tête ».

Que font les bots ?

Les bots peuvent principalement effectuer toute tâche répétitive non créative, tout ce qui peut être automatisé. Ils peuvent interagir avec une page Web, remplir et soumettre un formulaire, cliquer sur des liens, parcourir du texte et télécharger du contenu. Les bots peuvent « regarder »des vidéos, publier des commentaires et faire des publications, aimer ou retweeter sur les réseaux sociaux. Certains bots peuvent même tenir des conversations basic avec des utilisateurs humains, ils sont appelés chatbots.

Quelle est la différence entre les bons et les mauvais bots ?

Etonnamment, de nombreuses sources estiment qu’environ la moitie de tout le trafic Internet est du trafic bot. Tout comme certains logiciels, mais pas tous, sont des logiciels malveillants, certains bots sont malveillants et d’autres sont « bons ».

Tout bot qui abuse d’un produit ou service est considéré comme « mauvais ». Un mauvais bot peut aussi bien être manifestement malveillant, comme un bot qui cherche à pirater des comptes, ou abuser des ressources de façon plus modérée, comme un bot qui achète des billets sur un site Web d’événements.

Un bot qui effectue un service nécessaire ou utile peut être considéré comme « bon ». Les chatbots des services client, les robots d'indexation des moteurs de recherche et les bots de surveillance des performances sont des exemples de bons bots. Les bons bots consultent et respectent les règles définies dans le fichier robots.txt du site.

Qu’est qu’un fichier robots.txt ?

Robots.txt est un fichier sur un serveur web qui définit les règles d’accès par les bots aux propriétés de ce serveur. Cependant, le fichier lui même ne fait pas appliquer ces règles. En principe, toute personne qui programme un bot est censée suivre un système d’honneur et s’assurer que son bot consulte le fichier robots.txt du site avant d’y accéder. Les bots malveillants, bien sur, ne suivent généralement pas ce système, d’où le besoin de gérer les bots.

Comment fonctionne la gestion des bots ?

Pour identifier les bots, les gestionnaires de bots peuvent utiliser des défis JavaScript (qui déterminent si un navigateur traditionnel est utilisé ou non) ou CAPTCHA. Ils peuvent également distinguer les utilisateurs humains des bots grâce à une analyse du comportement, c’est à dire en comparant le comportement d’un utilisateur au comportement standard d’utilisateur par le passé. Les gestionnaires de bots doivent disposer d’un large ensemble de données comportementales auxquelles comparer les comportements.

S’il est déterminé qu’un bot est mauvais, il peut être dirigé vers une autre page ou complètement interdit d’accès à une ressource.

Les bons bots peuvent être ajouté à une liste blanche ou une liste de bots autorisés (par opposition à une liste noire). Un gestionnaire de bot peut aussi distinguer les bons et les mauvais bots par une analyse comportementale plus poussée.

Une autre approche de la gestion des bots est d’utiliser un fichier robots.txt pour créer un pot de miel. Un pot de miel est une fausse cible pour les mauvais acteurs qui, s’ils y accèdent, sont exposés comment étant malveillants. Dans le cas d’un bot, un pot de miel peut être une page interdite aux bots par le fichier robots.txt. Les bons bots consultent le fichier robots.txt et n’accèdent pas à cette page certains mauvais bots vont parcourir cette page. En suivant les adresses IP des bots qui ont accédé au pot de miel, les mauvais bots peuvent être identifiés et bloqués.

Quels types d’attaques la gestion des bots permet-elle d’atténuer ?

Une solution de gestion des bots peut arrêter plusieurs types d’attaques :

Ces autres activités bots ne sont pas toujours considérées comme « malveillantes », mais un gestionnaire de bot doit pouvoir néanmoins les atténuer :

  • Mise en réserve du répertoire
  • Publications automatisées sur les plates-formes et forums sociaux
  • Remplissage de chariot

Comment Cloudflare gère-t-il les bots ?

Cloudflare a la capacité unique de recueillir les données des millions de requêtes qui transitent par son réseau chaque jour. Grâce à ces données, au machine learning et à l’analyse comportementale, Cloudflare peut identifier l’activité probablement liée aux bots et fournir les données nécessaires pour créer efficacement une liste blanche de bons bots ou une liste noire de mauvais bots. Cloudflare est également doté d’une large base de données de réputation d'IP. En savoir plus sur la gestion des robots malveillants par Cloudflare.