Qu’est ce que l’extraction de données ?

Les attaquants peuvent utiliser des outils d’extraction internet pour accéder aux données beaucoup plus rapidement que prévu. En conséquence, les données sont utilisées à des fins non autorisées.

Share facebook icon linkedin icon twitter icon email icon

Extraction de données

Objectifs d’apprentissage

Après avoir lu cet article, vous pourrez :

  • Définir l’extraction de données
  • Expliquer les objectifs de l’extraction internet
  • Comprendre les méthodes d’atténuation de l’extraction internet
  • Différentier l’extraction de données et l’indexation des données

Qu'est-ce que l'extraction de données ?

De manière générale, l'extraction de données, fait référence à une technique dans laquelle un programme informatique extrait des données de la sortie générée à partir d'un autre programme. L'extraction de données se manifeste généralement dans l'extraction Web, le processus d'utilisation d'une application pour extraire des informations précieuses d'un site Web.

Data Scraping

Pourquoi extraire des données d’un site internet ?

En règle générale, les entreprises ne souhaitent pas que leur contenu unique soit téléchargé et réutilisé à des fins non autorisées. Par conséquent, elles n'exposent pas toutes les données via une API consommable ou une autre ressource facilement accessible. D'autre part, les bots extracteurs sont intéressés à obtenir les données du site Web indépendamment de toute tentative de limiter l'accès. En conséquence, un jeu du chat et la souris existe entre les bots extracteurs Web et diverses stratégies de protection du contenu, chacun essayant de déjouer l'autre.

Le processus d'extraction Web est assez simple, bien que la mise en œuvre puisse être complexe. L'extraction Web se déroule en 3 étapes :

  1. Pour commencer, l’élément de code utilisé pour extraire l’information, que nous appelons bot d’extraction, envoie une requête HTTP GET à un site internet spécifique.
  2. Lorsque le site répond, l’extracteur analyse le document HTML pour un modèle particulier de données.
  3. Une fois les données extraites, il les convertit dans le format spécifique conçu par l’auteur du bot d’extraction.

Les bots d’extraction peuvent être conçus dans de nombreux objectifs, comme :

    Extraction de
  1. contenu : le contenu peut être extrait du site Web vers un autre site afin de reproduire l'avantage unique d'un produit ou service particulier qui repose sur le contenu. Par exemple, un produit comme Yelp repose sur des avis ; un concurrent pourrait extraire tout le contenu des avis de Yelp et reproduire le contenu sur son propre site, en faisant semblant que le contenu est original.
  2. Extraction des prix : en extrayant les données sur les prix, les concurrents peuvent rassembler des informations sur leur concurrence. Cela peut leur permettre de formuler un avantage unique.
  3. Extraction des contacts : de nombreux sites Web contiennent des adresses e-mail et des numéros de téléphone sous forme de texte en clair. En extrayant des emplacements comme un répertoire d'employés en ligne, un extracteur est capable de rassembler des coordonnées pour des listes d'envoi massif de courriels, des appels robotisés ou des tentatives d'ingénierie sociale malveillantes. C'est l'une des principales méthodes utilisées par les spammeurs et les fraudeurs pour trouver de nouvelles cibles.

Comment l'extraction web est-elle atténuée ?

Habituellement, tout le contenu qu’un visiteur internet peut voir doit être transféré sur la machine du visiteur et toute information à laquelle un visiteur peut accéder peut être extraite par un bot.

Des efforts peuvent être faits pour limiter la quantité d'extraction web qui peut se produire. Voici 3 méthodes pour limiter l'exposition aux tentatives d'extraction des données :

  1. Demandes de limite de taux : pour un visiteur humain qui clique sur une série de pages Web sur un site Web, la vitesse d'interaction avec le site Web est assez prévisible ; vous n'aurez jamais un humain parcourant 100 pages Web par seconde, par exemple. Les ordinateurs, en revanche, peuvent effectuer de très fortes demandes plus rapidement qu'un humain, et les extracteurs de données novices peuvent utiliser des techniques d'extraction non restreintes pour tenter de d'extraire un site Web entier très rapidement. En limitant le nombre maximal de demandes qu'une adresse IP particulière peut effectuer sur une fenêtre de temps donnée, les sites Web sont en mesure de se protéger contre les demandes qui relèvent de l'exploitation et limiter la quantité d'extraction de données pouvant survenir dans une certaine fenêtre.
  2. Modifier le balisage HTML à intervalles réguliers : les bots d'extraction de données reposent sur une mise en forme cohérente afin de parcourir efficacement le contenu du site Web et analyser puis enregistrer les données utiles. Une méthode pour interrompre ce flux de travail consiste à modifier régulièrement des éléments du balisage HTML afin de rendre l'extraction continue plus compliquée. En imbriquant des éléments HTML ou en modifiant d'autres aspects du balisage, les simples efforts d'extraction de données seront entravés ou contrecarrés. Pour certains sites Web, chaque fois qu'une page Web est rendue, certaines formes de modifications de la protection du contenu sont randomisées et mises en œuvre. D'autres sites Web modifieront occasionnellement leur code de balisage pour empêcher les tentatives d'extraction des données à long terme.
  3. Utiliser CAPTCHA pour les demandeurs à volume élevé : en plus d'utiliser une solution de Rate Limiting, une autre étape utile pour ralentir les extracteurs de contenu est l'exigence qu'un visiteur de site Web relève un défi difficile à surmonter pour un ordinateur. Bien qu'un humain puisse raisonnablement relever le défi, un navigateur sans tête se livrant à l'extraction de données ne le sera probablement pas, et certainement pas de manière cohérente dans de nombreux cas du tests. Toutefois, les tests CAPTCHA constants peuvent avoir un impact négatif sur l'expérience utilisateur.

Une autre méthode d'atténuation moins courante consiste à incorporer du contenu dans des objets médias comme des images. Étant donné que le contenu n'existe pas dans une chaîne de caractères, la copie du contenu est beaucoup plus complexe, nécessitant la reconnaissance optique de caractères (OCR) pour extraire les données d'un fichier image. Mais cela peut également gêner les utilisateurs Web qui doivent copier du contenu tel qu'une adresse ou un numéro de téléphone sur un site Web au lieu de le mémoriser ou de le retaper.

*Un navigateur sans tête est un type de navigateur Web, tout comme Chrome ou Firefox, mais il n'a pas d'interface utilisateur visuelle par défaut, ce qui lui permet de se déplacer beaucoup plus rapidement qu'un navigateur Web classique. En fonctionnant essentiellement au niveau d'une ligne de commande, un navigateur sans tête est capable d'éviter de rendre des applications Web entières. Les extracteurs de données créent des bots qui utilisent des navigateurs sans tête pour demander des données plus rapidement, car il n'y a aucun humain qui visualise chaque page qui subi l'extraction.

Comment l'extraction Web est-il complètement arrêté ?

La seule façon d'arrêter totalement l'extraction web est d'éviter de mettre entièrement du contenu sur un site web. Toutefois, l'utilisation d'une solution de gestion de bots avancée peut aider les sites Web à éliminer presque complètement l'accès aux bots d'extraction.

Quelle est la différence entre l'extraction de données et l’indexation de données ?

L'indexation fait référence au processus que les grands moteurs de recherche comme Google entreprennent lorsqu'ils envoient leurs robots d'indexation, tels que Googlebot, sur le réseau pour indexer le contenu Internet. L'extraction, d'autre part, est généralement structurée spécifiquement pour extraire des données d'un site Web particulier.

Voici 3 des pratiques d’un bot d’extraction qui sont différentes de celles d’un robot d'indexation :

  1. Les bots d’extraction prétendent être des navigateurs internet, alors qu’un robot d'indexation indique son objectif et n’essaie pas de le dissimuler au site internet.
  2. Parfois, les bots d’extraction effectuent des tâches avancées comme remplir des formulaires ou avoir un comportement leur permettant d’avoir accès à une partie du site internet. Les robots d'indexation ne le feront pas.
  3. Les extracteurs ne tiennent généralement pas compte du fichier robots.txt, qui est un fichier texte contenant des informations spécifiquement conçues pour indiquer aux robots d'indexation web quelles données analyser et quelles zones du site éviter. Étant donné qu'un extracteur est conçu pour extraire un contenu spécifique, il peut être conçu pour extraire du contenu marqué explicitement pour être ignoré.

La gestion des bots malveillants par Cloudflare utilise le machine learning et l’analyse comportementale pour identifier les bots malveillants, tels que les bots d’extraction, afin de protéger le contenu unique et d’empêcher les bots d’abuser d’une propriété internet.