What is data scraping?

Data scraping is a technique where a computer program extracts data from the output of another program. A common form of this is web scraping.

What are the different types of web scraping?

Web scraping can be used for many purposes, including: Content scraping: An attacker pulls a website's content to replicate it on their own site; Price scraping: A competitor scrapes pricing data to gain an advantage by undercutting prices; Contact scraping: A bot gathers contact details like email addresses and phone numbers from websites to be used for spam, robo calls, or malicious social engineering.

What is the difference between data scraping and web crawling?

Web crawling is the process used by large search engines to index Internet content, and crawler bots are generally transparent about their purpose. Data scraping, on the other hand, is typically designed to extract specific data from a particular website.

How do websites get scraped?

The process typically involves three steps. First, a scraper bot sends an HTTP GET request to a website. Second, when the website responds, the scraper parses the HTML document to find a specific pattern of data. Finally, the extracted data is converted into a specific format designed by the bot's author.

How can data scraping be mitigated?

Several strategies can limit exposure to data scraping. These include rate-limiting requests to block abnormally fast traffic from a single IP address, regularly modifying a website's HTML markup to disrupt simple scrapers, and using challenges like CAPTCHAs for high-volume requesters.

Can web scraping be stopped completely?

Using an advanced bot management solution can help websites eliminate access for scraper bots. Cloudflare Bot Management, for example, uses machine learning and behavioral analysis to identify and stop malicious scraping activity.

Qu'est-ce que l'extraction web ?

Les attaquants peuvent utiliser des outils d’extraction de contenu web pour accéder aux données beaucoup plus rapidement que prévu. En conséquence, les données sont utilisées à des fins non autorisées.

Objectifs d’apprentissage

Cet article s'articule autour des points suivants :

Définir l'extraction de données
Expliquer les objectifs de l'extraction web
Comprendre les méthodes d’atténuation de l'extraction de données
Différentier l'extraction de données et l’indexation des données

Contenu associé

Qu'est-ce que le scraping de contenu ?

Qu’est-ce qu’un bot ?

Qu'est-ce que la gestion des bots ?

Attaque par force brute

Qu’est-ce que l’infiltration de comptes ?

Vous souhaitez continuer à enrichir vos connaissances ?

Abonnez-vous à theNET, le récapitulatif mensuel par Cloudflare des informations les plus populaires sur Internet !

Copier le lien de l'article

Protégez-vous contre les attaques de bots telles que le bourrage d'identifiants (Credential Stuffing) et l'extraction de contenu avec Cloudflare.

Commencez à bloquer les mauvais bots

Qu'est-ce que l'extraction web ?

L’extraction de données, dans sa forme la plus générale, désigne une technique par laquelle un programme informatique extrait des données d’un résultat généré par un autre programme. L’extraction de données se manifeste généralement dans l’extraction web, le processus qui consiste à utiliser une application pour extraire des informations précieuses d’un site web.

Quels sont les différents types d'extraction web ? Pourquoi extraire les données d’un site web ?

Les bots d'extraction peuvent être conçus à plusieurs fins, dont les suivantes :

Extraction de contenu : le contenu d’un site web est extrait dans le but de reproduire l’avantage unique d’un produit ou service particulier lié à un contenu. Prenons l'exemple d'un site d'avis sur les restaurants : un concurrent peut extraire tous les avis, puis reproduire le contenu sur son propre site web, en prétendant qu'il s'agit d'un contenu original (et en récolter les bénéfices).
Extraction des tarifs : en extrayant les données sur les prix, les concurrents sont en mesure de réunir des informations sur la concurrence. Cela leur permet d'obtenir un avantage unique, réduire la valeur de leurs concurrents, et ainsi, s'emparer de leur activité.
Extraction de contacts : de nombreux sites web contiennent des adresses électroniques et des numéros de téléphone en texte brut. En parcourant des pages telles que les annuaires d’employés en ligne, un extracteur peut regrouper les coordonnées à utiliser dans les listes de diffusion en masse, les appels robotisés ou les tentatives d’ingénierie sociale malveillantes. Il s’agit d’une des principales méthodes utilisées par les spammeurs et les escrocs pour trouver de nouvelles cibles.

Quelle est la différence entre l'extraction de données et l’indexation de données ?

L'indexation désigne le processus que les grands moteurs de recherche comme Google entreprennent lorsqu’ils envoient leurs robots d'indexation, comme Googlebot, parcourir le réseau pour indexer le contenu Internet. L'extraction, quant à elle, est généralement structurée pour extraire des données d’un site web particulier.

Voici trois différences de comportement entre les bots d'extraction et les robots d'indexation web :

	Honnêteté/transparence	Manœuvres avancées	Respecter robots.txt
Bot d'extraction	Vont se faire passer pour des navigateurs web afin de passer outre toute tentative de blocage de bot d'extraction de contenu.	Peut effectuer des actions avancées, comme remplir des formulaires afin d'accéder à des informations confidentielles.	Ne tient généralement pas compte de robots.txt, ils peuvent ainsi extraire du contenu de manière explicite contre la volonté du propriétaire du site web.
Robot d'indexation	indiquera son objectif, n'essayera pas de faire croire à un site web que le robot d'indexation est autre chose que ce qu'il est réellement.	n'essaiera pas d'accéder aux parties protégées d'un site web.	Tient compte de robots.txt, ce qui signifie qu'ils respectent les souhaits du propriétaire du site web concernant les données à analyser et les zones du site web à éviter.

Comment les sites web sont-ils extraits ?

Le processus d’extraction web est assez simple, même si sa mise en œuvre peut être complexe. Nous pouvons résumer le processus en trois étapes :

Pour commencer, l’élément de code utilisé pour extraire les informations (le bot d'extraction) envoie une requête HTTP GET à un site web spécifique.
Lorsque le site web répond, le bot d'extraction de données analyse le document HTML à la recherche d'un modèle particulier de données.
Une fois les données extraites, il les convertit dans un format spécifique conçu par l’auteur du bot d'extraction de données.

En général, les entreprises ne souhaitent pas que leur contenu unique soit téléchargé et réutilisé à des fins non autorisées. Elles peuvent donc essayer de ne pas exposer toutes les données via une API consommable ou une autre ressource facilement accessible. Les bots d'extraction cherchent, quant à eux, à obtenir des données sur les sites web, indépendamment des différentes tentatives de restriction d’accès. Il en résulte un jeu du chat et de la souris entre les bots d'extraction et les différentes stratégies de protection de contenu, chaque partie essayant de déjouer les plans de l’autre.

Comment l'extraction web est-elle atténuée ?

Les stratégies d’extraction web intelligentes nécessitent des stratégies d’atténuation intelligentes. Les méthodes permettant de limiter l’exposition à l’extraction de données sont les suivantes :

Contrôle du volume de requêtes : lorsqu’un humain clique sur une série de pages d'un site web, la vitesse d’interaction avec le site est relativement prévisible, un humain ne pouvant pas parcourir 100 pages à la seconde par exemple. Les ordinateurs, quant à eux, peuvent lancer des requêtes de grande ampleur, plus rapidement qu’un humain, et les extracteurs de données débutants peuvent utiliser des techniques d'extraction non bridées pour tenter d’extraire l’ensemble d’un site web très rapidement. En limitant le nombre maximal de requêtes qu'une adresse IP donnée peut effectuer sur une fenêtre de temps donnée, les sites web sont en mesure de se protéger contre les demandes exploitatives et de limiter la quantité d'extraction de données qui peut se produire dans cette fenêtre.
Modification du balisage HTML à intervalles réguliers : les bots d’extraction de données s’appuient sur une mise en forme constante pour parcourir efficacement le contenu d’un site web et en extraire les données. Pour interrompre ce flux, une méthode consiste à modifier régulièrement les éléments du balisage HTML. Avec l'imbrication d'éléments HTML ou la modification d'autres aspects du balisage, les efforts d'extraction de données peuvent être entravés ou contrecarrés. Par exemple, certains sites web randomisent une forme de modification de la protection du contenu chaque fois qu'une page web est rendue ; d’autres peuvent mettre à jour leur front-end toutes les quelques semaines pour empêcher les efforts d'extraction de données à plus long terme.
Utiliser des questions de vérification pour les utilisateurs à l'origine de volumes de requêtes élevés : une autre étape utile pour ralentir les extracteurs de contenu consiste à demander aux visiteurs du site web de répondre à une question difficile à surmonter pour un ordinateur. Un humain pourra raisonnablement répondre à la question, mais un navigateur sans interface graphique* ne le pourra probablement pas, et encore moins s'il reçoit de nombreuses occurrences de questions.
Une autre méthode d’atténuation, moins répandue, consiste à intégrer le contenu dans des objets de support comme des images. Le contenu n’existe pas sous forme de chaîne de caractères, sa copie est donc beaucoup plus compliquée et nécessite une technique de reconnaissance optique des caractères pour extraire les données du fichier image.

*Un navigateur sans interface graphique est un type de navigateur, similaire à Chrome ou Firefox, qui n’a pas d’interface visuelle par défaut ce qui lui permet des déplacements beaucoup plus rapidement qu’un navigateur classique. En s’exécutant essentiellement au niveau d’une ligne de commande, un navigateur sans interface graphique peut éviter d’afficher des applications web entières. Les extracteurs de données écrivent des bots qui utilisent des navigateurs sans interface graphique pour demander des données plus rapidement, puisqu'aucun humain ne regarde les pages extraites

Comment arrêter complètement l'extraction web ?

La seule façon de garantir l’arrêt complet de l’extraction web est de cesser de mettre du contenu sur un site web. Cependant, une solution de gestion des bots avancée peut aider les sites web à interdire l’accès aux bots d’extraction.

Protégez-vous contre les attaques par extraction de contenus avec Cloudflare

La gestion des bots de Cloudflare utilise l'apprentissage automatique et l'analyse comportementale pour identifier l'activité d'extraction malveillante, protéger le contenu unique et empêcher les robots d'abuser d'une propriété web. De même, le mode Super Bot Fight est conçu pour aider les petites organisations à se défendre contre les robots d’indexation et autres activités de robots malveillants, tout en leur offrant une meilleure visibilité sur leur trafic lié aux bots.

FAQ

Qu'est-ce que l'extraction web ?

L’extraction de données est une technique par laquelle un programme informatique extrait des données de la sortie d’un autre programme. L’extraction web en est une forme courante.

Quels sont les différents types d’extraction web ?

L’extraction web peut être utilisée à de nombreuses fins. Par exemple, l’extraction de contenu : un attaquant extrait le contenu d’un site web pour le reproduire sur son propre site. Ensuite, l’extraction de prix : un concurrent collecte les données tarifaires pour obtenir un avantage en baissant les prix. Autre exemple, l’extraction de contacts : un bot collecte des coordonnées à partir de sites web, telles que des adresses e-mail et des numéros de téléphone, pour les utiliser à des fins de spam, d’appels automatisés ou d’ingénierie sociale malveillante.

Quelle est la différence entre l’extraction de données et l’indexation web ?

L’indexation web est le processus utilisé par les grands moteurs de recherche pour indexer le contenu d’Internet, et les bots d’exploration sont généralement transparents quant à leur objectif. L’extraction de données, quant à elle, est généralement conçue pour extraire des données spécifiques d’un site web particulier.

De quelle manière les sites web sont-ils récupérés par extraction ?

Le processus implique généralement trois étapes. Pour commencer, un bot d’extraction envoie une requête HTTP GET à un site web. Deuxièmement, lorsque le site web répond, le bot analyse le document HTML à la recherche d’un modèle particulier de données. Enfin, les données extraites sont converties dans un format spécifique conçu par l’auteur du bot.

Comment l’extraction de données peut-elle être atténuée ?

Plusieurs stratégies permettent de limiter l’exposition à l’extraction de données. Citons, par exemple, le contrôle du volume des requêtes pour bloquer le trafic anormalement rapide provenant d’une seule adresse IP, la modification régulière du balisage HTML d’un site web pour perturber les robots d’extraction simples, et l’utilisation de vérifications telles que les CAPTCHA pour les gros émetteurs de requêtes.

Peut-on complètement stopper l’extraction web ?

Une solution de gestion des bots avancée peut aider les sites web à interdire l’accès aux bots d’extraction. Cloudflare Bot Management, par exemple, utilise l’apprentissage automatique et l’analyse comportementale pour identifier et arrêter les activités d’extraction malveillantes.

DÉMARRAGE

À propos des bots

Attaques de bots

Gestion des bots

Glossaire

Navigation dans le Centre d'apprentissage