Le scraping de contenu ou web scraping est une technique informatique permettant à des bots de télécharger ou d'extraire (scraping désigne l'action d'extraire de données) tout le contenu d'un site web, souvent afin d'utiliser ce contenu à des fins malveillantes.
Cet article s'articule autour des points suivants :
Contenu associé
Qu'est-ce que la sécurité des applications web ?
Les défis de l'ingénierie sociale
Attaque de l'homme du milieu
Attaque KRACK
Attaque par débordement de tampon (buffer overflow)
Abonnez-vous à theNET, le récapitulatif mensuel de Cloudflare des idées les plus populaires concernant Internet !
Copier le lien de l'article
Le scraping de contenu, ou web scraping, fait référence au moment où un bot télécharge une partie ou la totalité du contenu d'un site Web, à l'insu du propriétaire du site. Le scraping de contenu est une forme d'extraction de données (ou scraping de données). Il est essentiellement toujours effectué par des bots automatisés appelés web scrapers. Les web scrapers peuvent parfois télécharger tout le contenu d'un site web en quelques secondes.
Les bots de scraping de contenu sont souvent utilisés pour réaffecter le contenu à des fins malveillantes, telles que la duplication du contenu pour le référencement naturel (SEO) sur les sites web appartenant au pirate, la violation des droits d'auteur et le vol de trafic organique. Le scraping de contenu peut s'accompagner du remplissage et de la soumission de formulaires pour accéder à du contenu contrôlé supplémentaire, et accessoirement cela introduit des données indésirables dans la base de données d'une entreprise. Par ailleurs, le traitement des requêtes HTTP des bots consomment des ressources de serveur qui pourraient être dédiées aux utilisateurs humains.
Un bot scraper envoie généralement une série de requêtes HTTP GET, puis copie et enregistre toutes les informations que le serveur web envoie en réponse, en parcourant la hiérarchie d'un site web jusqu'à ce qu'il ait copié tout le contenu.
Les web scrapers les plus sophistiqués peuvent utiliser JavaScript, par exemple pour remplir tous les formulaires d'un site web et télécharger tout le contenu contrôlé. Les programmes et les API « d'automatisation du navigateur » permettent une interaction automatisée des bots avec les sites web et les API comme s'ils utilisaient un navigateur web traditionnel pour tenter de tromper le serveur du site web en lui faisant croire qu'un utilisateur humain accède au contenu.
Bien sûr, un individu peut plutôt copier et coller manuellement un site web entier, mais les bots peuvent explorer et télécharger tout le contenu d'un site web souvent en quelques secondes,Certes, un individu conserve toujours la possibilité de copier/coller manuellement un site web entier, mais les bots peuvent bien souvent indexer et télécharger l'ensemble du contenu d'un site en quelques secondes, même pour les grands sites comme les sites d'e-commerce même pour les grands sites comme les sites de commerce électronique contenant des centaines voire des milliers de pages de produits.
Les bots peuvent extraire tout ce qui est affiché publiquement sur Internet : texte, images, code HTML, code CSS, etc. Les attaquants peuvent utiliser les données récupérées à diverses fins. Le texte peut être réutilisé sur un autre site Web pour voler le classement des moteurs de recherche du premier site Web ou pour tromper les utilisateurs. Un attaquant pourrait utiliser le code HTML et CSS d'un site web pour reproduire l'apparence d'un site web légitime ou l'image de marque d'une autre entreprise. Les cybercriminels peuvent utiliser du contenu volé pour créer des sites web d'hameçonnage qui incitent les utilisateurs à entrer des données personnelles suite à leur ressemblance à la version réelle d'un autre site Web.
Cette forme de scraping concerne l'analyse des sites web à la recherche de coordonnées telles que des numéros de téléphone et des adresses e-mail, qu'ils téléchargent. Les bots moissonneurs d'e-mails ou « email harvesters » correspondent à un type de scrapers qui ciblent spécifiquement les adresses e-mail, généralement dans le but de trouver de nouvelles cibles pour le spam.
Il désigne le fait qu'une entreprise télécharge toutes les informations de prix à partir du site web d'une entreprise concurrente pour pouvoir aligner ses propres prix.
Voir Qu'est-ce que le scraping de données ? pour en savoir plus.
Les solutions de gestion des bots peuvent identifier les modèles de comportement des bots et atténuer les activités de scraping des bots, souvent à l'aide de l'apprentissage automatique. Le Rate Limiting peut également aider à éviter le scraping de contenu : il est improbable qu'un véritable utilisateur soit en mesure de demander le contenu de plusieurs centaines de pages en quelques secondes ou minutes, et tout « utilisateur » effectuant des requêtes aussi rapidement est probablement un bot. Les tests CAPTCHA peuvent également aider à trier les vrais utilisateurs des bots.
La solution Cloudflare Bot Management est conçue pour bloquer les attaques d'extraction de contenu, ainsi que pour atténuer d'autres types de trafic malveillant lié aux bots. Contrairement aux solutions de contrôle du volume de requêtes ou de Captcha, la solution Cloudflare Bot Management peut utiliser l'apprentissage automatique (Machine Learning) pour identifier les bots à partir de modèles de comportement. Ce mode opératoire entraîne moins de points de friction pour les utilisateurs et moins de faux positifs (utilisateurs identifiés accidentellement comme des bots). Les entreprises de taille plus réduite peuvent également bloquer les attaques d'extraction de contenu et bénéficier d'une visibilité sur leur trafic lié aux bots grâce au mode Super Bot Fight (Superlutte contre les bots), désormais disponible dans les offres Pro et Business de Cloudflare.