Qu’est ce que le scraping de contenu ? | Web Scraping

Le scraping de contenu ou web scraping est une technique informatique permettant à des bots de télécharger ou d'extraire (scraping désigne l'action d'extraire de données) tout le contenu d'un site web, souvent afin d'utiliser ce contenu à des fins malveillantes.

Objectifs d’apprentissage

Cet article s'articule autour des points suivants :

  • Découvrir ce qu'est le scraping de contenu
  • Comprendre le fonctionnement d'un bot de web scraping
  • Expliquer pourquoi les pirates se livrent au scraping de contenu
  • Découvrir comment arrêter le scraping de contenu

Contenu associé


Vous souhaitez continuer à enrichir vos connaissances ?

Abonnez-vous à theNET, le récapitulatif mensuel de Cloudflare des idées les plus populaires concernant Internet !

Consultez la politique de confidentialité de Cloudflare pour en savoir plus sur la manière dont nous collectons et traitons vos données personnelles.

Copier le lien de l'article

Qu'est-ce que le scraping de contenu ?

Content Scraping Bot

Le scraping de contenu, ou web scraping, fait référence au moment où un bot télécharge une partie ou la totalité du contenu d'un site Web, à l'insu du propriétaire du site. Le scraping de contenu est une forme d'extraction de données (ou scraping de données). Il est essentiellement toujours effectué par des bots automatisés appelés web scrapers. Les web scrapers peuvent parfois télécharger tout le contenu d'un site web en quelques secondes.

Les bots de scraping de contenu sont souvent utilisés pour réaffecter le contenu à des fins malveillantes, telles que la duplication du contenu pour le référencement naturel (SEO) sur les sites web appartenant au pirate, la violation des droits d'auteur et le vol de trafic organique. Le scraping de contenu peut s'accompagner du remplissage et de la soumission de formulaires pour accéder à du contenu contrôlé supplémentaire, et accessoirement cela introduit des données indésirables dans la base de données d'une entreprise. Par ailleurs, le traitement des requêtes HTTP des bots consomment des ressources de serveur qui pourraient être dédiées aux utilisateurs humains.

Comment les bots récupèrent-ils le contenu ?

Un bot scraper envoie généralement une série de requêtes HTTP GET, puis copie et enregistre toutes les informations que le serveur web envoie en réponse, en parcourant la hiérarchie d'un site web jusqu'à ce qu'il ait copié tout le contenu.

Les web scrapers les plus sophistiqués peuvent utiliser JavaScript, par exemple pour remplir tous les formulaires d'un site web et télécharger tout le contenu contrôlé. Les programmes et les API « d'automatisation du navigateur » permettent une interaction automatisée des bots avec les sites web et les API comme s'ils utilisaient un navigateur web traditionnel pour tenter de tromper le serveur du site web en lui faisant croire qu'un utilisateur humain accède au contenu.

Bien sûr, un individu peut plutôt copier et coller manuellement un site web entier, mais les bots peuvent explorer et télécharger tout le contenu d'un site web souvent en quelques secondes,Certes, un individu conserve toujours la possibilité de copier/coller manuellement un site web entier, mais les bots peuvent bien souvent indexer et télécharger l'ensemble du contenu d'un site en quelques secondes, même pour les grands sites comme les sites d'e-commerce même pour les grands sites comme les sites de commerce électronique contenant des centaines voire des milliers de pages de produits.

Quels types de contenu les bots de scraping de contenu ciblent-ils ?

Les bots peuvent extraire tout ce qui est affiché publiquement sur Internet : texte, images, code HTML, code CSS, etc. Les attaquants peuvent utiliser les données récupérées à diverses fins. Le texte peut être réutilisé sur un autre site Web pour voler le classement des moteurs de recherche du premier site Web ou pour tromper les utilisateurs. Un attaquant pourrait utiliser le code HTML et CSS d'un site web pour reproduire l'apparence d'un site web légitime ou l'image de marque d'une autre entreprise. Les cybercriminels peuvent utiliser du contenu volé pour créer des sites web d'hameçonnage qui incitent les utilisateurs à entrer des données personnelles suite à leur ressemblance à la version réelle d'un autre site Web.

Quels sont les autres types de web scraping ?

Scraping des contacts

Cette forme de scraping concerne l'analyse des sites web à la recherche de coordonnées telles que des numéros de téléphone et des adresses e-mail, qu'ils téléchargent. Les bots moissonneurs d'e-mails ou « email harvesters » correspondent à un type de scrapers qui ciblent spécifiquement les adresses e-mail, généralement dans le but de trouver de nouvelles cibles pour le spam.

Scraping de prix

Il désigne le fait qu'une entreprise télécharge toutes les informations de prix à partir du site web d'une entreprise concurrente pour pouvoir aligner ses propres prix.

Voir Qu'est-ce que le scraping de données ? pour en savoir plus.

Comment les entreprises peuvent-elles empêcher le web scraping ?

Les solutions de gestion des bots peuvent identifier les modèles de comportement des bots et atténuer les activités de scraping des bots, souvent à l'aide de l'apprentissage automatique. Le Rate Limiting peut également aider à éviter le scraping de contenu : il est improbable qu'un véritable utilisateur soit en mesure de demander le contenu de plusieurs centaines de pages en quelques secondes ou minutes, et tout « utilisateur » effectuant des requêtes aussi rapidement est probablement un bot. Les tests CAPTCHA peuvent également aider à trier les vrais utilisateurs des bots.

La solution Cloudflare Bot Management est conçue pour bloquer les attaques d'extraction de contenu, ainsi que pour atténuer d'autres types de trafic malveillant lié aux bots. Contrairement aux solutions de contrôle du volume de requêtes ou de Captcha, la solution Cloudflare Bot Management peut utiliser l'apprentissage automatique (Machine Learning) pour identifier les bots à partir de modèles de comportement. Ce mode opératoire entraîne moins de points de friction pour les utilisateurs et moins de faux positifs (utilisateurs identifiés accidentellement comme des bots). Les entreprises de taille plus réduite peuvent également bloquer les attaques d'extraction de contenu et bénéficier d'une visibilité sur leur trafic lié aux bots grâce au mode Super Bot Fight (Superlutte contre les bots), désormais disponible dans les offres Pro et Business de Cloudflare.