Qu'est-ce que l'extraction web ?

Les attaquants peuvent utiliser des outils d’extraction de contenu web pour accéder aux données beaucoup plus rapidement que prévu. En conséquence, les données sont utilisées à des fins non autorisées.

Objectifs d’apprentissage

Cet article s'articule autour des points suivants :

  • Définir l'extraction de données
  • Expliquer les objectifs de l'extraction web
  • Comprendre les méthodes d’atténuation de l'extraction de données
  • Différentier l'extraction de données et l’indexation des données

Contenu associé


Vous souhaitez continuer à enrichir vos connaissances ?

Abonnez-vous à theNET, le récapitulatif mensuel de Cloudflare des idées les plus populaires concernant Internet !

Consultez la politique de confidentialité de Cloudflare pour en savoir plus sur la manière dont nous collectons et traitons vos données personnelles.

Copier le lien de l'article

Protégez-vous contre les attaques de bots telles que le bourrage d'identifiants (Credential Stuffing) et l'extraction de contenu avec Cloudflare.

Qu'est-ce que l'extraction web ?

L’extraction de données, dans sa forme la plus générale, désigne une technique par laquelle un programme informatique extrait des données d’un résultat généré par un autre programme. L’extraction de données se manifeste généralement dans l’extraction web, le processus qui consiste à utiliser une application pour extraire des informations précieuses d’un site web.

Extraction de données

Quels sont les différents types d'extraction web ? Pourquoi extraire les données d’un site web ?

Les bots d'extraction peuvent être conçus à plusieurs fins, dont les suivantes :

  1. Extraction de contenu : le contenu d’un site web est extrait dans le but de reproduire l’avantage unique d’un produit ou service particulier lié à un contenu. Prenons l'exemple d'un site d'avis sur les restaurants : un concurrent peut extraire tous les avis, puis reproduire le contenu sur son propre site web, en prétendant qu'il s'agit d'un contenu original (et en récolter les bénéfices).
  2. Extraction des tarifs : en extrayant les données sur les prix, les concurrents sont en mesure de réunir des informations sur la concurrence. Cela leur permet d'obtenir un avantage unique, réduire la valeur de leurs concurrents, et ainsi, s'emparer de leur activité.
  3. Extraction de contacts : de nombreux sites web contiennent des adresses électroniques et des numéros de téléphone en texte brut. En parcourant des pages telles que les annuaires d’employés en ligne, un extracteur peut regrouper les coordonnées à utiliser dans les listes de diffusion en masse, les appels robotisés ou les tentatives d’ingénierie sociale malveillantes. Il s’agit d’une des principales méthodes utilisées par les spammeurs et les escrocs pour trouver de nouvelles cibles.

Quelle est la différence entre l'extraction de données et l’indexation de données ?

L'indexation désigne le processus que les grands moteurs de recherche comme Google entreprennent lorsqu’ils envoient leurs robots d'indexation, comme Googlebot, parcourir le réseau pour indexer le contenu Internet. L'extraction, quant à elle, est généralement structurée pour extraire des données d’un site web particulier.

Voici trois différences de comportement entre les bots d'extraction et les robots d'indexation web :

  Honnêteté/transparence Manœuvres avancées Respecter robots.txt
Bot d'extraction Vont se faire passer pour des navigateurs web afin de passer outre toute tentative de blocage de bot d'extraction de contenu. Peut effectuer des actions avancées, comme remplir des formulaires afin d'accéder à des informations confidentielles. Ne tient généralement pas compte de robots.txt, ils peuvent ainsi extraire du contenu de manière explicite contre la volonté du propriétaire du site web.
Robot d'indexation indiquera son objectif, n'essayera pas de faire croire à un site web que le robot d'indexation est autre chose que ce qu'il est réellement. n'essaiera pas d'accéder aux parties protégées d'un site web. Tient compte de robots.txt, ce qui signifie qu'ils respectent les souhaits du propriétaire du site web concernant les données à analyser et les zones du site web à éviter.

Comment les sites web sont-ils extraits ?

Le processus d’extraction web est assez simple, même si sa mise en œuvre peut être complexe. Nous pouvons résumer le processus en trois étapes :

  1. Pour commencer, l’élément de code utilisé pour extraire les informations (le bot d'extraction) envoie une requête HTTP GET à un site web spécifique.
  2. Lorsque le site web répond, le bot d'extraction de données analyse le document HTML à la recherche d'un modèle particulier de données.
  3. Une fois les données extraites, il les convertit dans un format spécifique conçu par l’auteur du bot d'extraction de données.

En général, les entreprises ne souhaitent pas que leur contenu unique soit téléchargé et réutilisé à des fins non autorisées. Elles peuvent donc essayer de ne pas exposer toutes les données via une API consommable ou une autre ressource facilement accessible. Les bots d'extraction cherchent, quant à eux, à obtenir des données sur les sites web, indépendamment des différentes tentatives de restriction d’accès. Il en résulte un jeu du chat et de la souris entre les bots d'extraction et les différentes stratégies de protection de contenu, chaque partie essayant de déjouer les plans de l’autre.

Comment l'extraction web est-elle atténuée ?

Les stratégies d'extraction web intelligentes nécessitent des stratégies d’atténuation intelligentes. Les méthodes permettant de limiter l’exposition à l’extraction de données sont les suivantes :

  1. Contrôle du volume de requêtes : lorsqu’un humain clique sur une série de pages d'un site web, la vitesse d’interaction avec le site est relativement prévisible, un humain ne pouvant pas parcourir 100 pages à la seconde par exemple. Les ordinateurs, quant à eux, peuvent lancer des requêtes de grande ampleur, plus rapidement qu’un humain, et les extracteurs de données débutants peuvent utiliser des techniques d'extraction non bridées pour tenter d’extraire l’ensemble d’un site web très rapidement. En limitant le nombre maximal de requêtes qu'une adresse IP donnée peut effectuer sur une fenêtre de temps donnée, les sites web sont en mesure de se protéger contre les demandes exploitatives et de limiter la quantité d'extraction de données qui peut se produire dans cette fenêtre.
  2. Modification du balisage HTML à intervalles réguliers : les bots d’extraction de données s’appuient sur une mise en forme constante pour parcourir efficacement le contenu d’un site web et en extraire les données. Pour interrompre ce flux, une méthode consiste à modifier régulièrement les éléments du balisage HTML. Avec l'imbrication d'éléments HTML ou la modification d'autres aspects du balisage, les efforts d'extraction de données peuvent être entravés ou contrecarrés. Par exemple, certains sites web randomisent une forme de modification de la protection du contenu chaque fois qu'une page web est rendue ; d’autres peuvent mettre à jour leur front-end toutes les quelques semaines pour empêcher les efforts d'extraction de données à plus long terme.
  3. Utiliser des questions de vérification pour les utilisateurs à l'origine de volumes de requêtes élevés : une autre étape utile pour ralentir les extracteurs de contenu consiste à demander aux visiteurs du site web de répondre à une question difficile à surmonter pour un ordinateur. Un humain pourra raisonnablement répondre à la question, mais un navigateur sans interface graphique* ne le pourra probablement pas, et encore moins s'il reçoit de nombreuses occurrences de questions.
  4. Une autre méthode d’atténuation, moins répandue, consiste à intégrer le contenu dans des objets de support comme des images. Le contenu n’existe pas sous forme de chaîne de caractères, sa copie est donc beaucoup plus compliquée et nécessite une technique de reconnaissance optique des caractères pour extraire les données du fichier image.

*Un navigateur sans interface graphique est un type de navigateur, similaire à Chrome ou Firefox, qui n’a pas d’interface visuelle par défaut ce qui lui permet des déplacements beaucoup plus rapidement qu’un navigateur classique. En s’exécutant essentiellement au niveau d’une ligne de commande, un navigateur sans interface graphique peut éviter d’afficher des applications web entières. Les extracteurs de données écrivent des bots qui utilisent des navigateurs sans interface graphique pour demander des données plus rapidement, puisqu'aucun humain ne regarde les pages extraites

Comment arrêter complètement l'extraction web ?

La seule façon de garantir l’arrêt complet de l’extraction web est de cesser de mettre du contenu sur un site web. Cependant, une solution de gestion des bots avancée peut aider les sites web à interdire l’accès aux bots d’extraction.

Protégez-vous contre les attaques par extraction de contenus avec Cloudflare

La gestion des bots de Cloudflare utilise l'apprentissage automatique et l'analyse comportementale pour identifier l'activité d'extraction malveillante, protéger le contenu unique et empêcher les robots d'abuser d'une propriété web. De même, le mode Super Bot Fight est conçu pour aider les petites organisations à se défendre contre les robots d’indexation et autres activités de robots malveillants, tout en leur offrant une meilleure visibilité sur leur trafic lié aux bots.