Qu’est ce que l’extraction de données ?

Les attaquants peuvent utiliser des outils d’extraction internet pour accéder aux données beaucoup plus rapidement que prévu. En conséquence, les données sont utilisées à des fins non autorisées.

Share facebook icon linkedin icon twitter icon email icon

Extraction de données

Objectifs d’apprentissage

Après avoir lu cet article, vous pourrez :

  • Définir l’extraction de données
  • Expliquer les objectifs de l’extraction internet
  • Comprendre les méthodes d’atténuation de l’extraction internet
  • Différentier l’extraction de données et l’indexation des données

Qu’est ce que l’extraction de données ?

L’extraction de données, dans sa forme la plus générale, désigne une technique par laquelle un agent logiciel extraie des données d’un résultat généré par un autre programme. L’extraction de données se manifeste généralement dans L’extraction Internet, le processus qui consiste à utiliser une application pour extraire des informations d’un site internet.

Data Scraping

Pourquoi extraire des données d’un site internet ?

Généralement, les entreprises ne souhaitent pas que leur contenu unique soit téléchargé et réutilisé à des fins non autorisées. En conséquence, elles n’exposent pas toutes leurs données via une API à consommer ou d’autres ressources facilement accessibles. Les bots extracteurs, quant à eux, souhaitent obtenir les données du internet, indépendamment de toutes tentatives de restriction d’accès. Il en résulte un jeu du chat et de la souris entre les bots d’extraction internet et les différentes stratégies de protection du contenu, chacun essayant de déjouer les plans de l’autre.

Le processus d’extraction internet est relativement simple, bien que sa mise en œuvre puisse être complexe. L’extraction internet se déroule en 3 étapes :

  1. Pour commencer, l’élément de code utilisé pour extraire l’information, que nous appelons bot d’extraction, envoie une requête HTTP GET à un site internet spécifique.
  2. Lorsque le site répond, l’extracteur analyse le document HTML pour un modèle particulier de données.
  3. Une fois les données extraites, il les convertit dans le format spécifique conçu par l’auteur du bot d’extraction.

Les bots d’extraction peuvent être conçus dans de nombreux objectifs, comme :

  1. L’extraction de contenu : le contenu peut être extrait d’un site Web de façon à reproduire l’avantage unique d’un produit ou service particulier lié à un contenu. Par exemple, un produit comme Yelp se base sur les avis ; un concurrent pourrait extraire tous les avis contenus sur Yelp et reproduire ce contenu sur leur propre site, en prétendant qu’il s’agit de contenu original.
  2. L’extraction de tarifs : par l’extraction de données de tarification, les concurrents sont en mesure de rassembler des informations au sujet de la compétition. Cela leur permet de formuler un avantage unique.
  3. L’extraction de contact : de nombreux sites internet contiennent des adresses mail et numéros de téléphone en clair. En parcourant des sites comme des annuaires d’employés en ligne, un extracteur peut rassembler des coordonnées pour un envoi massif de mails, des appels robotisés, ou des tentatives d’ingénierie sociale malveillante. Il s’agit d’une des principales méthodes utilisées par les spammeurs et les escrocs pour trouver de nouvelles cibles.

Comment l’extraction internet est-elle atténuée ?

Habituellement, tout le contenu qu’un visiteur internet peut voir doit être transféré sur la machine du visiteur et toute information à laquelle un visiteur peut accéder peut être extraite par un bot.

Des efforts destinés à limiter l’extraction internet peuvent être entrepris. Voici 3 méthodes destinées à limiter l’exposition à l’extraction de données :

  1. Requêtes de limitation du débit : lorsqu’un humain clique sur une série de pages internet, la vitesse d’interaction avec le site est relativement prévisible, un humain ne pouvant pas parcourir 100 pages à la seconde par exemple. Les ordinateurs, quant à eux, peuvent lancer des requêtes de grande ampleur plus rapidement que les humains et les extracteurs de données débutants peuvent utiliser des techniques d’extraction rapides pour tenter d’extraire l’ensemble d’un site très rapidement. En limitant le débit à un nombre maximum de requêtes qu’une adresse IP en particulier peut effectuer dans une fenêtre donnée, les sites internet peuvent se protéger des requêtes abusives et limiter le volume d’extraction de données qui peut survenir dans une fenêtre donnée.
  2. Modification du balisage HTML à intervalles réguliers : les bots d’extraction des données s’appuient sur un formatage cohérent afin de parcourir efficacement le contenu d’un site et d’analyser et enregistrer les données utiles. Pour interrompre ce flux, une méthode consiste à modifier régulièrement les éléments du balisage HTML pour compliquer l’extraction cohérente. Imbriquer les éléments HTML ou changer les autres aspects du balisage peut entraver ou contrecarrer les efforts d’extraction de données. Pour certains sites internet, chaque page fois qu’une page est affichée, certaines modifications relatives à la protection du contenu sont sélectionnée aléatoirement et mises en œuvre. D’autres sites internet modifient de temps en temps leur code de balisage afin d’empêcher les efforts d’extraction des données à plus long terme.
  3. Utilisation de CAPTCHA pour les utilisateurs à l’origine de nombreuses requêtes : en plus d’utiliser une solution de limitation du débit et pour ralentir le processus d’extraction de contenu, un visiteur internet peut être amené à répondre à un défi difficile à surmonter pour un ordinateur. Un humain pourra raisonnablement réussir le défi, mais un navigateur sans tête* à l’origine d’une extraction de données éprouvera plus de difficultés, et en tout état de cause ne pourra pas le réussir plusieurs fois s’il est présenté fréquemment. Cependant, les défis CAPTCHA peuvent avoir un impact négatif sur l’expérience utilisateur.

Une autre méthode d’atténuation, moins répandue, consiste à intégrer le contenu dans des objets de support comme des images. Le contenu n’existe pas sous forme de chaine de caractères, sa copie est donc beaucoup plus compliquée et nécessite une technique de reconnaissance optique des caractère pour extraire les données du fichier image. Mais, cela peut également entraver les utilisateurs qui ont besoin de copier un contenu comme une adresse ou un numéro de téléphone d’un site internet plutôt que de le mémoriser ou de le re-saisir.

*Un navigateur sans tête est un type de navigateur, similaire à Chrome ou Firefox, qui n’a pas d’interface visuelle par défaut ce qui lui permet de se déplacer beaucoup plus rapidement qu’un navigateur classique. Un navigateur sans tête s’exécute au niveau d’une ligne de commande, il peut donc éviter d’afficher toutes les applications internet. Les extracteurs de données écrivent des bots qui utilisent les navigateurs sans tête pour demander des données plus rapidement, puisque aucun humain ne regarde les pages extraites.

Comment l’extraction internet est-elle entièrement arrêtée ?

La seule façon d’arrêter totalement une extraction internet est d’éviter de placer du contenu sur un site. Cependant, une solution de gestion des bots avancée peut aider les sites à interdire l’accès aux bots d’extraction, presque entièrement.

Quelle est la différence entre l’extraction de données et l’indexation des données ?

L’indexation désigne le processus entrepris par les grands moteurs de recherche comme Google lorsqu’ils envoient leurs robots d'indexation, comme Googlebot, parcourir le réseau pour indexer le contenu Internet. L’extraction, quant à elle, est spécifiquement structurée pour extraire des données d’un site internet en particulier.

Voici 3 des pratiques d’un bot d’extraction qui sont différentes de celles d’un robot d'indexation :

  1. Les bots d’extraction prétendent être des navigateurs internet, alors qu’un robot d'indexation indique son objectif et n’essaie pas de le dissimuler au site internet.
  2. Parfois, les bots d’extraction effectuent des tâches avancées comme remplir des formulaires ou avoir un comportement leur permettant d’avoir accès à une partie du site internet, ce que ne font pas les robots d'indexation.
  3. Les bots d’extraction ne prêtent généralement aucune attention au fichier robots.txt contenant des informations spécifiquement conçues pour indiquer aux robots d'indexation quelles données analyser et quelle zone du site éviter. Un bot d’extraction est conçu pour extraire un contenu spécifique, il peut donc être conçu pour extraire du contenu explicitement indiqué comme à ignorer.

La gestion des robots malveillants par Cloudflare utilise le machine learning et l’analyse comportementale pour identifier les bots malveillants, tels que les bots d’extraction, afin de protéger le contenu unique et d’empêcher les bots d’abuser d’une propriété internet.