Qu’est ce que la gestion des bots ? | Comment fonctionnent les gestionnaires de bots

La gestion des bots consiste à identifier et bloquer les bots d’un site web ou d’une application tout en autorisant l’accès aux autres bots.

Share facebook icon linkedin icon twitter icon email icon

Gestion des bots

Objectifs d’apprentissage

Après avoir lu cet article, vous pourrez :

  • Comprendre ce que font les bots et pourquoi il est nécessaire de les gérer
  • Découvrir ce que font les produits de gestion des bots
  • Explorer pourquoi certains bots doivent être autorisés et d’autres bloqués

Qu’est-ce que la gestion des bots ?

La gestion des bots fait référence au blocage du trafic indésirable ou malveillant de bots Internet tout en permettant aux bots utiles d’accéder aux propriétés Web. Pour ce faire, la gestion des bots détecte l’activité des bots, en discernant le comportement des bots souhaitable et indésirable et en identifiant les sources de l’activité indésirable.

La gestion des bots est nécessaire car les bots, s’ils ne sont pas contrôlés, peuvent provoquer d’importants problèmes pour les propriétés web. Trop de trafic de bots peut faire peser une charge importante sur les serveurs web, en entraînant un ralentissement ou un déni de service pour les utilisateurs légitimes (parfois sous la forme d’une attaque DDoS). Les bots malveillants peuvent « scraper » (c’est-à-dire extraire) ou télécharger du contenu d’un site web, voler les informations d’identification des utilisateurs, propager rapidement du contenu spam et effectuer diverses autres cyberattaques.

Que fait un gestionnaire de bots ?

Un gestionnaire de bots est un produit logiciel qui gère les bots. Les gestionnaires de bots devraient pouvoir bloquer certains bots et en laisser passer d’autres, au lieu de simplement bloquer tout le trafic non humain. Par exemple, si tous les bots sont bloqués et que les bots Google ne sont pas en mesure d’indexer une page, cette page ne peut pas apparaître dans les résultats de recherche Google, ce qui réduit considérablement le trafic organique vers le site web.

Un bon gestionnaire de bots atteint les objectifs suivants :

  • Différencier les bots des visiteurs humains
  • Identifier la réputation du bot
  • Identifier les adresses IP d’origine des bots et les bloquer en fonction de la réputation IP
  • Analyser le comportement du bot
  • Ajouter de « bons » bots aux listes autorisées
  • Tester les bots potentiels via un test Captcha, une injection de JavaScript ou d’autres méthodes
  • Limiter le taux pour réguler le trafic de tout bot sur-utilisant un service
  • Refuser l’accès des « mauvais » bots à certains contenus ou certaines ressources
  • Servir un contenu alternatif aux bots

Qu’est-ce qu’un bot ?

Un bot est un programme informatique qui fonctionne sur un réseau. Les robots sont programmés pour effectuer automatiquement certaines actions. En règle générale, les tâches qu’un bot exécute sont assez simples, mais un bot peut les refaire sans cesse à un rythme beaucoup plus rapide qu’un humain.

Par exemple, Google utilise des bots pour explorer en permanence les pages web et indexer le contenu pour la recherche. Il faudrait un temps astronomique à une équipe humaine pour examiner le contenu diffusé sur Internet, mais les bots de Google sont capables de maintenir l’index de recherche de Google suffisamment à jour.

Comme exemple négatif, citons les escrocs qui utilisent les bots moissonneurs d’e-mails pour recueillir des adresses partout sur Internet. Les bots parcourent les pages web, recherchent du texte qui se présente au format d’e-mail (texte + symbole @ + domaine), et enregistrent ce texte dans une base de données. Naturellement, un humain pourrait parcourir les pages web à la recherche d’adresses mail, mais comme ces bots moissonneurs sont automatisés et ne cherchent que du texte répondant à certains critères, ils trouvent des adresses mail beaucoup plus rapidement.

Contrairement à un utilisateur humain qui accède à Internet, un bot n’accède généralement pas à Internet par un navigateur traditionnel comme Google Chrome ou Mozilla Firefox. Plutôt que d’utiliser une souris (ou un smartphone) et de cliquer sur un contenu visuel dans un navigateur, les bots sont simplement des agents logiciels qui lance des requêtes HTTP (entre autres activités), généralement en utilisant ce que l’on appelle un « navigateur sans tête ».

Que font les bots ?

Les bots peuvent effectuer fondamentalement n’importe quelle tâche répétitive et non créative, en fait toute tâche qui peut être automatisée. Ils peuvent interagir avec une page web, remplir et envoyer des formulaires, cliquer sur des liens, numériser (ou « explorer ») un texte et télécharger du contenu. Les bots peuvent « regarder » des vidéos, publier des commentaires et messages, ajouter des « j’aime » ou retweeter sur les plates-formes de médias sociaux. Certains bots, appelés chatbots, peuvent même tenir des conversations de base avec des utilisateurs humains.

Quelle est la différence entre les bons bots et les mauvais bots ?

Étonnamment, de nombreuses sources estiment qu’environ la moitié de tout le trafic Internet est du trafic bot. De la même manière que certains logiciels sont des logiciels malveillants et d’autres non, certains bots sont malveillants et d’autres sont de « bons » bots.

Tout bot qui abuse d’un produit ou service en ligne peut être considéré comme « mauvais ». Les mauvais bots peuvent être ouvertement malveillants, tels que les bots qui tentent de s’introduire dans les comptes utilisateur, à des formes plus légères d’utilisation abusive des ressources, comme les bots qui achètent des billets sur un site événementiel.

Un bot qui effectue un service nécessaire ou utile peut être considéré comme « bon ». Les chatbots du service client, les robots d’indexation des moteurs de recherche et les bots de surveillance des performances sont tous des exemples de bons bots. Les bons bots recherchent et respectent généralement les règles définies dans le fichier robots.txt d’un site web.

Qu’est-ce qu’un fichier robots.txt ?

Le fichier robots.txt figure sur un serveur web. Il décrit les règles d’accès des bots aux propriétés de ce serveur. Toutefois, le fichier lui-même n’applique pas ces règles. Essentiellement, toute personne qui programme un bot est censée suivre un code d’honneur et s’assurer que son bot vérifie le fichier robots.txt d’un site web avant d’y accéder. Les bots malveillants, bien sûr, ne suivent généralement pas ce code, d’où la nécessité d’une gestion des bots.

Comment fonctionne la gestion des bots ?

Pour identifier les bots, les gestionnaires de bots peuvent utiliser des tests JavaScript (qui déterminent si un navigateur web traditionnel est utilisé ou non) ou des tests Captcha. Ils peuvent également déterminer quels utilisateurs sont des humains et quels « utilisateurs » sont des bots par l’analyse comportementale, c’est-à-dire en comparant le comportement d’un utilisateur au comportement standard des utilisateurs dans le passé. Les gestionnaires de bots doivent avoir une grande collection de données comportementales de qualité pour vérifier les différents comportements.

S’il est déterminé qu’un bot est « mauvais », il peut être redirigé vers une page différente ou être bloqué pour ne pas pouvoir accéder à une ressource web.

Les bons bots peuvent être ajoutés à une liste autorisée (le contraire d’une liste autorisée est une liste bloquée). Un gestionnaire de bots peut aussi distinguer les bons et les mauvais bots via une analyse comportementale plus poussée.

Une autre approche de la gestion des bots consiste à utiliser le fichier robots.txt pour configurer un « pot de miel ». Un pot de miel est une fausse cible pour les acteurs malveillants. Lorsque les bots y accèdent, le pot de miel révèle que ces bots sont malveillants. Dans le cas d’un bot, un pot de miel peut être une page web du site interdite aux bots par le fichier robots.txt. Les bons bots liront le fichier robots.txt et éviteront cette page web. Certains mauvais bots exploreront la page web. En suivant l’adresse IP des bots qui accèdent au pot de miel, les mauvais bots peuvent être identifiés et bloqués.

Quels types d’attaques de bots la gestion des bots atténue-t-elle ?

Une solution de gestion des bots peut aider à stopper différentes attaques :

Ces autres activités de bots ne sont pas toujours considérées comme « malveillantes », mais un gestionnaire de bots doit pouvoir malgré tout les atténuer :

  • Mise en réserve du répertoire
  • Posts automatisés sur les forums ou plateformes sociales
  • Bourrage de paniers d’achat en ligne

Comment Cloudflare gère-t-il les bots ?

Cloudflare a la capacité unique de recueillir les données des millions de requêtes qui transitent par son réseau chaque jour. Grâce à ces données, à l’apprentissage automatique et à l’analyse comportementale, Cloudflare peut identifier l’activité probablement liée aux bots et fournir les données nécessaires pour créer efficacement une liste autorisée de bons bots ou une liste bloquée de mauvais bots. Cloudflare dispose également d’une vaste base de données de réputation d’IP. En savoir davantage au sujet de Cloudflare Bot Management.