Qu’est ce que la gestion des bots ? | Comment fonctionnent les gestionnaires de bots

La gestion des bots consiste à identifier et bloquer les bots d’un site internet ou d’une application tout en autorisant l’accès aux autres bots.

Share facebook icon linkedin icon twitter icon email icon

Gestion des bots

Objectifs d’apprentissage

Après avoir lu cet article, vous pourrez :

  • Comprendre ce que font les bots et pourquoi il est nécessaire de les gérer
  • Découvrir ce que font les produits de gestion des bots
  • Découvrir pourquoi certains bots doivent être autorisés et d’autres bloqués

Qu'est-ce que la gestion des bots ?

La gestion des bots fait référence au blocage du trafic indésirable ou malveillant de bots Internet tout en permettant aux bots utiles d'accéder aux propriétés Web. Pour ce faire, la gestion des bots détecte l'activité des bots, en discernant le comportement des bots souhaitable et indésirable et en identifiant les sources de l'activité indésirable.

La gestion des bots est nécessaire parce que lorsqu'ils ne sont pas contrôlés, les bots peuvent causer d'énormes problèmes pour les propriétés Web. Trop de trafic de bots peut entraîner une lourde charge sur les serveurs Web, ralentissant ou refusant le service aux utilisateurs légitimes (parfois cela prend la forme d'une attaque DDoS). Les bots malveillants peuvent extraire ou télécharger du contenu à partir d'un site Web, voler des informations d'identification de l'utilisateur, diffuser rapidement du contenu indésirable et effectuer divers autres types de cyberattaques.

Que fait un gestionnaire de bot ?

Un gestionnaire de bot est un produit logiciel qui gère les bots. Les gestionnaires de bots devraient pouvoir bloquer certains bots et en laisser passer d'autres, au lieu de simplement bloquer tout le trafic non humain. Par exemple, si tous les bots sont bloqués et que les bots Google ne sont pas en mesure d'indexer une page, cette page ne peut pas apparaître dans les résultats de recherche Google, ce qui réduit considérablement le trafic organique vers le site Web.

Un bon gestionnaire de bot atteint les objectifs suivants. Il peut :

  • Identifier les bots par rapport aux visiteurs humains
  • Identifier la réputation du bot
  • Identifier les adresses IP d'origine des bots et les bloquer en fonction de la réputation IP
  • Analyser le comportement du bot
  • Ajouter les « bon » bots aux listes blanches
  • Défiez les bots potentiels via un test Captcha, une injection JavaScript ou d'autres méthodes
  • Limiter le débit de tout bot sur-utilisant un service
  • Refuser l’accès à certains contenus ou ressources pour les bots « malveillants »
  • Servir un contenu alternatif aux bots

Qu'est-ce qu'un bot ?

Un bot est un programme informatique qui fonctionne sur un réseau. Les robots sont programmés pour effectuer automatiquement certaines actions. En règle générale, les tâches qu'un bot exécute sont assez simples, mais un bot peut les faire encore et encore à un rythme beaucoup plus rapide qu'un humain.

Par exemple, Google utilise des bots pour explorer en permanence les pages Web et indexer le contenu pour la recherche. Il faudrait un temps astronomique à une équipe humaine pour examiner le contenu diffusé sur Internet, mais les bots de Google sont capables de maintenir l'index de recherche de Google suffisamment à jour.

À titre d'exemple négatif, les spammeurs utilisent des bots de collecte d'e-mails pour collecter les adresses e-mail de partout sur Internet. Les bots explorent les pages Web, recherchent tout texte qui suit le format de l'adresse e-mail (texte + symbole @ + domaine) et enregistrent ce texte dans une base de données. Naturellement, un humain peut rechercher des adresses e-mail dans les pages Web, mais comme ces bots de collecte d'e-mails sont automatisés et ne recherchent que du texte qui correspond à certains critères, ils sont exponentiellement plus rapides dans la recherche d'adresses e-mail.

Contrairement à lorsqu'un utilisateur humain accède à Internet, un bot n'accède généralement pas à Internet via un navigateur Web traditionnel comme Google Chrome ou Mozilla Firefox. Au lieu d'utiliser une souris (ou un smartphone) et de cliquer sur le contenu visuel dans un navigateur, les bots ne sont que des logiciels qui effectuent des requêtes HTTP (entre autres activités), en utilisant généralement ce qu'on appelle un « navigateur sans tête ».

Que font les bots ?

Les bots peuvent effectuer essentiellement n'importe quelle tâche répétitive et non créative ; tout ce qui peut être automatisé. Ils peuvent interagir avec une page Web, remplir et envoyer des formulaires, cliquer sur des liens, numériser (ou « explorer ») un texte et télécharger du contenu. Les bots peuvent « regarder » des vidéos, publier des commentaires et messages, comme ou retweeter sur les plateformes de médias sociaux. Certains bots peuvent même tenir des conversations de base avec des utilisateurs humains ; ce sont des chatbots.

Quelle est la différence entre les bons bots et les bots malveillants ?

Étonnamment, de nombreuses sources estiment qu'environ la moitié du trafic Internet est réalisée par les bots. Tout comme certains logiciels sont malveillants, certains bots sont malveillants et d'autres sont « bons ».

Tout bot qui abuse d'un produit ou service en ligne peut être considéré comme « malveillant ». Les bots malveillants peuvent aller des plus manifestement malveillants, tels que les bots qui tentent de s'introduire dans les comptes d'utilisateurs, à des formes plus légères d'utilisation abusive des ressources, comme les bots qui achètent des billets sur un site Web d'événements.

Un bot qui effectue un service nécessaire ou utile peut être considéré comme « bon ». Les chatbots du service client, les robots d'indexation des moteurs de recherche et les bots de surveillance des performances sont tous des exemples de bons bots. Les bons robots recherchent et respectent généralement les règles décrites dans le fichier robots.txt d'un site Web.

Qu'est-ce qu'un fichier robots.txt ?

Robots.txt est un fichier sur un serveur Web décrivant les règles d'accès des bots aux propriétés de ce serveur. Toutefois, le fichier lui-même n'applique pas ces règles. Essentiellement, toute personne qui programme un bot est censée suivre un système d'honneur et s'assurer que son bot vérifie le fichier robots.txt d'un site Web avant d'y accéder. Les bots malveillants, bien sûr, ne suivent généralement pas ce système ; d'où la nécessité d'une gestion des bots.

Comment fonctionne la gestion des bots ?

Pour identifier les bots, les gestionnaires de bots peuvent utiliser des défis JavaScript (qui déterminent si un navigateur Web traditionnel est utilisé ou non) ou des tests Captcha. Ils peuvent également déterminer quels utilisateurs sont des humains et lesquels sont des bots par analyse comportementale, ce qui signifie en comparant le comportement d'un utilisateur au comportement standard des utilisateurs dans le passé. Les gestionnaires de bots doivent avoir une grande collection de données comportementales de qualité pour vérifier les différents comportements.

S’il est déterminé qu’un bot est mauvais, il peut être dirigé vers une autre page ou complètement interdit d’accès à une ressource.

Les bons bots peuvent être ajoutés à une liste blanche ou à une liste de bots autorisés (à l'opposé d'une liste noire). Un gestionnaire de bots peut également faire la distinction entre les bons bots et les bots malveillants via une analyse comportementale plus approfondie.

Une autre approche de gestion des bots consiste à utiliser le fichier robots.txt pour configurer un pot de miel. Un pot de miel est une fausse cible pour les mauvais acteurs qui sont considérés comme tels une fois qu'ils y accèdent. Dans le cas d'un bot, un pot de miel peut être une page Web du site interdite aux bots par le fichier robots.txt. Les bons bots liront le fichier robots.txt et éviteront cette page Web ; certains bots malveillants exploreront la page Web. En suivant l'adresse IP des bots qui accèdent au pot de miel, les bots malveillants peuvent être identifiés et bloqués.

Quels types d'attaques de bots la gestion des bots atténue-t-elle ?

Une solution de gestion de bot peut aider à stopper une diversité d'attaques :

Ces autres activités bots ne sont pas toujours considérées comme « malveillantes », mais un gestionnaire de bot doit pouvoir néanmoins les atténuer :

  • Mise en réserve du répertoire
  • Publication automatisée sur les forums ou plateformes sociales
  • Remplissage de chariot

Comment Cloudflare gère-t-il les bots ?

Cloudflare a la capacité unique de collecter des données de milliards de demandes transitant par son réseau par jour. Avec ces données, Cloudflare est en mesure d'identifier l'activité probable des bots grâce à l'apprentissage machine et à l'analyse comportementale, et peut fournir les données nécessaires pour créer une liste blanche efficace de bons bots ou une liste noire de bots malveillants. Cloudflare possède également une vaste base de données de réputation d'IP. En savoir plus sur Cloudflare Bot Management.