Le scraping de contenu ou web scraping est une technique informatique permettant à des bots de télécharger ou d'extraire (scraping désigne l'action d'extraire de données) tout le contenu d'un site web, souvent afin d'utiliser ce contenu à des fins malveillantes.
Cet article s'articule autour des points suivants :
Contenu associé
Sécurité des applications web
Les défis de l'ingénierie sociale
Attaque de l'homme du milieu
Attaque KRACK
Attaque par débordement de tampon (buffer overflow)
Abonnez-vous à theNET, le récapitulatif mensuel de Cloudflare des idées les plus populaires concernant Internet !
Copier le lien de l'article
L'extraction de contenu, ou extraction web, fait référence au moment où un bot télécharge une partie ou la totalité du contenu d'un site web, à l'insu du propriétaire du site. L'extraction de contenu est une forme d'extraction de données. qui cible le contenu, qu'il s'agisse d'un visuel web original ou d'un curriculum vitae, en passant par une critique d'un restaurant. Dans la plupart des cas, l'extraction est effectuée par des bots automatisés capables de collecter des informations à grande échelle et rapidement.
L'extraction de contenu peut être utilisée à des fins légitimes, telles que l'agrégation de données pour l'optimisation des moteurs de recherche. Cependant, les bots d'extraction sont souvent utilisés pour réaffecter du contenu à des fins malveillantes, telles que la violation des droits d'auteur, la duplication du contenu pour l'optimisation des moteurs de recherche sur les sites web appartenant à l'attaquant et le vol de trafic organique. Ces bots peuvent également donner lieu à des analyses de l'utilisation faussées et à l'épuisement des ressources serveur.
Un bot d'extraction de site web envoie généralement une série de requêtes HTTP GET, puis copie et enregistre toutes les informations que le serveur web envoie en réponse, en parcourant la hiérarchie d'un site web jusqu'à ce qu'il ait copié tout le contenu.
Les extracteurs de contenu les plus sophistiqués peuvent utiliser JavaScript, par exemple pour remplir tous les formulaires d'un site web afin d'accéder au contenu contrôlé et de le télécharger. Les programmes et les API « d'automatisation du navigateur » permettent une interaction automatisée des bots avec les sites web et les API comme s'ils utilisaient un navigateur web traditionnel pour tenter de tromper le serveur du site web en lui faisant croire qu'un utilisateur humain accède au contenu.
Bien sûr, un individu peut copier et coller manuellement un site web entier, mais les bots peuvent explorer et télécharger tout le contenu d'un site web en quelques secondes, même pour les grands sites de e-commerce contenant des centaines ou des milliers de pages de produits.
Les bots peuvent extraire tout ce qui est affiché publiquement sur Internet : texte, images, code HTML, code CSS, etc. Les attaquants peuvent ensuite utiliser les données récupérées à diverses fins. Un exemple consiste à réutiliser du texte sur un autre site Web pour voler le classement du moteur de recherche du premier site Web ou pour tromper les utilisateurs. Un attaquant pourrait également utiliser le code HTML et CSS d'un site web pour reproduire l'apparence d'un site web légitime ou l'image de marque d'une autre entreprise. Les cybercriminels peuvent utiliser du contenu volé pour créer des sites web de phishing qui incitent les utilisateurs à entrer des données personnelles suite à leur ressemblance à la version réelle d'un autre site web.
L'extraction web peut nuire à l'activité de plusieurs entreprises.
L'extraction de prix fait référence au téléchargement de toutes les informations tarifaires d'un site web, souvent par une entreprise concurrente. Cela peut être dommageable si le concurrent ajuste ses prix pour les rendre plus favorables, incitant les consommateurs à effectuer leurs achats auprès de son concurrent plutôt que sur le site web d'origine (ayant subi l'extraction).
L'extraction de contacts consiste à analyser un site web à la recherche de coordonnées, telles que des numéros de téléphone et des adresses électroniques, puis à télécharger ces informations. Ce type d'extraction est souvent effectué dans le but de trouver de nouvelles cibles pour le spam.
Voir Qu'est-ce que le scraping de données ? pour en savoir plus.
Les solutions de gestion des bots peuvent identifier les modèles de comportement des bots et atténuer les activités d'extraction des bots, souvent à l'aide de l'apprentissage automatique. Lecontrôle du volume des requêtes peut également aider à éviter l'extraction de contenu : il est improbable qu'un véritable utilisateur soit en mesure de demander le contenu de plusieurs centaines de pages en quelques secondes ou minutes, et tout « utilisateur » effectuant des requêtes aussi rapidement est probablement un bot. En outre, l'introduction de vérifications interstitielles que les bots ne sont pas en mesure de résoudre permet de distinguer les vrais utilisateurs des bots.
La solution de gestion des bots de Cloudflare protège votre site web contre le trafic lié aux bots malveillants, afin de tenir les bots d'extraction de contenu à distance. La solution de gestion des bots de Cloudflare, basée sur l'apprentissage automatique, peut identifier les bots à partir de logiques de comportement, ce qui réduit le nombre de points de friction pour les utilisateurs et de faux positifs. Pour que l'atténuation de l'extraction soit efficace, la détection des bots peut fonctionner conjointement avec les requêtes de contrôle du volume des requêtes et la gestion des difficultés avec Turnstile.
Les petites organisations peuvent également bloquer les attaques par extraction et obtenir une visibilité sur leur trafic lié aux bots grâce au mode Super Bot Fight, disponible avec les offres Cloudflare Pro et Business.