Qu’est ce que le scraping de contenu ? | Web Scraping

Le scraping de contenu ou web scraping est une technique informatique permettant à des bots de télécharger ou d'extraire (scraping désigne l'action d'extraire de données) tout le contenu d'un site web, souvent afin d'utiliser ce contenu à des fins malveillantes.

Objectifs d’apprentissage

Cet article s'articule autour des points suivants :

  • Découvrir ce qu'est le scraping de contenu
  • Comprendre le fonctionnement d'un bot de web scraping
  • Expliquer pourquoi les pirates se livrent au scraping de contenu
  • Découvrir comment arrêter le scraping de contenu

Contenu associé


Vous souhaitez continuer à enrichir vos connaissances ?

Abonnez-vous à theNET, le récapitulatif mensuel de Cloudflare des idées les plus populaires concernant Internet !

Consultez la politique de confidentialité de Cloudflare pour en savoir plus sur la manière dont nous collectons et traitons vos données personnelles.

Copier le lien de l'article

Qu'est-ce que le scraping de contenu ?

Content Scraping Bot

L'extraction de contenu, ou extraction web, fait référence au moment où un bot télécharge une partie ou la totalité du contenu d'un site web, à l'insu du propriétaire du site. L'extraction de contenu est une forme d'extraction de données. qui cible le contenu, qu'il s'agisse d'un visuel web original ou d'un curriculum vitae, en passant par une critique d'un restaurant. Dans la plupart des cas, l'extraction est effectuée par des bots automatisés capables de collecter des informations à grande échelle et rapidement.

L'extraction de contenu peut être utilisée à des fins légitimes, telles que l'agrégation de données pour l'optimisation des moteurs de recherche. Cependant, les bots d'extraction sont souvent utilisés pour réaffecter du contenu à des fins malveillantes, telles que la violation des droits d'auteur, la duplication du contenu pour l'optimisation des moteurs de recherche sur les sites web appartenant à l'attaquant et le vol de trafic organique. Ces bots peuvent également donner lieu à des analyses de l'utilisation faussées et à l'épuisement des ressources serveur.

Comment les bots récupèrent-ils le contenu ?

Un bot d'extraction de site web envoie généralement une série de requêtes HTTP GET, puis copie et enregistre toutes les informations que le serveur web envoie en réponse, en parcourant la hiérarchie d'un site web jusqu'à ce qu'il ait copié tout le contenu.

Les extracteurs de contenu les plus sophistiqués peuvent utiliser JavaScript, par exemple pour remplir tous les formulaires d'un site web afin d'accéder au contenu contrôlé et de le télécharger. Les programmes et les API « d'automatisation du navigateur » permettent une interaction automatisée des bots avec les sites web et les API comme s'ils utilisaient un navigateur web traditionnel pour tenter de tromper le serveur du site web en lui faisant croire qu'un utilisateur humain accède au contenu.

Bien sûr, un individu peut copier et coller manuellement un site web entier, mais les bots peuvent explorer et télécharger tout le contenu d'un site web en quelques secondes, même pour les grands sites de e-commerce contenant des centaines ou des milliers de pages de produits.

Quels types de contenu les bots d’extraction ciblent-ils ?

Les bots peuvent extraire tout ce qui est affiché publiquement sur Internet : texte, images, code HTML, code CSS, etc. Les attaquants peuvent ensuite utiliser les données récupérées à diverses fins. Un exemple consiste à réutiliser du texte sur un autre site Web pour voler le classement du moteur de recherche du premier site Web ou pour tromper les utilisateurs. Un attaquant pourrait également utiliser le code HTML et CSS d'un site web pour reproduire l'apparence d'un site web légitime ou l'image de marque d'une autre entreprise. Les cybercriminels peuvent utiliser du contenu volé pour créer des sites web de phishing qui incitent les utilisateurs à entrer des données personnelles suite à leur ressemblance à la version réelle d'un autre site web.

Difficultés métier dues à l'extraction web

L'extraction web peut nuire à l'activité de plusieurs entreprises.

  • Baisse des prix - les concurrents s'attaquent à mes prix, les font baisser, puis s'emparent de mes ventes. Ce cas de figure concerne tous les clients qui vendent quelque chose, qu'il s'agisse d'un produit ou un service.
  • Les données analytiques commerciales faussées affectent la planification : les entreprises voient les indicateurs d'utilisation comme un facteur dans leurs décisions commerciales, notamment en ce qui concerne le marketing, la présentation et les secteurs où consacrer des ressources supplémentaires. Les bots d'extraction polluent ces données d'utilisation.
  • Altération des performances des sites web : les opérations exhaustives exécutées par les bots d'extraction peuvent ralentir les sites web. En cas d'extraction importante de contenus, les serveurs des clients peuvent ne pas être en mesure de gérer le trafic, ce qui rend le site inaccessible aux utilisateurs légitimes. Ce problème est particulièrement préjudiciable pour les revendeurs en ligne, car il empêche ainsi les ventes.
  • Coût opérationnel supplémentaire : la bande passante utilisée par les bots d'extraction peut faire grimper considérablement les coûts.
  • Les utilisateurs vont chercher leurs informations ailleurs : les utilisateurs finaux peuvent trouver les mêmes informations via un chatbot IA ou un autre site, de sorte que la source des informations d'origine perd du trafic. Ce problème affecte particulièrement les entreprises dont l'activité repose sur des abonnements payants ou des revenus publicitaires, notamment les sites web d'information qui n'accordent qu'un accès illimité aux utilisateurs abonnés ou les sites web de divertissement fortement tributaires de la consultation des publicités pour générer des revenus.

Quels sont les autres types de web scraping ?

Scraping de prix

L'extraction de prix fait référence au téléchargement de toutes les informations tarifaires d'un site web, souvent par une entreprise concurrente. Cela peut être dommageable si le concurrent ajuste ses prix pour les rendre plus favorables, incitant les consommateurs à effectuer leurs achats auprès de son concurrent plutôt que sur le site web d'origine (ayant subi l'extraction).

Scraping des contacts

L'extraction de contacts consiste à analyser un site web à la recherche de coordonnées, telles que des numéros de téléphone et des adresses électroniques, puis à télécharger ces informations. Ce type d'extraction est souvent effectué dans le but de trouver de nouvelles cibles pour le spam.

Voir Qu'est-ce que le scraping de données ? pour en savoir plus.

Comment les entreprises peuvent-elles empêcher le web scraping ?

Les solutions de gestion des bots peuvent identifier les modèles de comportement des bots et atténuer les activités d'extraction des bots, souvent à l'aide de l'apprentissage automatique. Lecontrôle du volume des requêtes peut également aider à éviter l'extraction de contenu : il est improbable qu'un véritable utilisateur soit en mesure de demander le contenu de plusieurs centaines de pages en quelques secondes ou minutes, et tout « utilisateur » effectuant des requêtes aussi rapidement est probablement un bot. En outre, l'introduction de vérifications interstitielles que les bots ne sont pas en mesure de résoudre permet de distinguer les vrais utilisateurs des bots.

Protégez-vous contre l'extraction web avec Cloudflare

La solution de gestion des bots de Cloudflare protège votre site web contre le trafic lié aux bots malveillants, afin de tenir les bots d'extraction de contenu à distance. La solution de gestion des bots de Cloudflare, basée sur l'apprentissage automatique, peut identifier les bots à partir de logiques de comportement, ce qui réduit le nombre de points de friction pour les utilisateurs et de faux positifs. Pour que l'atténuation de l'extraction soit efficace, la détection des bots peut fonctionner conjointement avec les requêtes de contrôle du volume des requêtes et la gestion des difficultés avec Turnstile.

Les petites organisations peuvent également bloquer les attaques par extraction et obtenir une visibilité sur leur trafic lié aux bots grâce au mode Super Bot Fight, disponible avec les offres Cloudflare Pro et Business.