Beim Content Scraping oder Web Scraping laden Bots alle Inhalte einer Website herunter oder „scrapen“ sie, häufig, um diese Inhalte böswillig zu verwenden.
Nach Lektüre dieses Artikels können Sie Folgendes:
Ähnliche Inhalte
Sichere Webanwendungen
Was ist ein Social-Engineering-Angriff?
Man-in-the-Middle-Angriff
KRACK-Angriff
Pufferüberlaufangriff
Abonnieren Sie theNET, Cloudflares monatliche Zusammenfassung der beliebtesten Einblicke in das Internet!
Link zum Artikel kopieren
Content Scraping oder Web Scraping bezeichnet den Vorgang, wenn ein Bot einen Großteil oder den gesamten Inhalt einer Website herunterlädt, unabhängig von den Wünschen des Website-Besitzers. Content Scraping ist eine Form von Data Scraping, die auf Inhalte abzielt – von der ursprünglichen Webgrafik über einen professionellen Lebenslauf bis hin zu einer Restaurantbewertung. In den meisten Fällen wird das Scraping von automatisierten Bots durchgeführt, die Informationen in großem Umfang und schnell sammeln können.
Content Scraping kann für legitime Zwecke verwendet werden, wie z. B. zum Aggregieren von Daten für die Suchmaschinenoptimierung. Scraping-Bots werden jedoch häufig dazu verwendet, Inhalte für böswillige Zwecke wiederzuverwenden, z. B. zur Verletzung von Urheberrechten, zur Duplizierung von Inhalten zur Suchmaschinenoptimierung auf Websites, die dem Angreifer gehören, und zum Stehlen von organischem Traffic. Diese Bots können auch zu verzerrten Nutzungsanalysen und einer Überlastung der Serverressourcen führen.
Ein Website-Scraper-Bot sendet in der Regel eine Reihe von HTTP-GET-Anfragen und kopiert und speichert dann alle Informationen, die der Webserver als Antwort sendet. Dabei bahnt er sich seinen Weg durch die Hierarchie einer Website, bis er den gesamten Inhalt kopiert hat.
Ausgefeiltere Scraper-Bots können JavaScript verwenden, um beispielsweise alle Formulare auf einer Website auszufüllen, um auf zugriffsbeschränkte Inhalte zuzugreifen und diese herunterzuladen. „Browser-Automatisierungs“-Programme und APIs ermöglichen eine automatisierte Bot-Interaktion mit Websites und APIs, die den Anschein erweckt, als handle es sich um einen herkömmlichen Webbrowser, und den Server der Website dadurch glauben lässt, ein menschlicher Nutzender würde auf die Inhalte zugreifen.
Sicher, eine Einzelperson könnte stattdessen eine ganze Website manuell kopieren und einfügen, aber Bots können den gesamten Inhalt einer Website innerhalb von Sekunden durchsuchen und herunterladen, selbst bei großen E-Commerce-Sites mit Hunderten oder Tausenden von einzelnen Produktseiten.
Bots können alles scrapen, was öffentlich im Internet publiziert wird: Texte, Bilder, HTML-Code, CSS-Code und so weiter. Angreifer können die gescrapten Daten dann für eine Vielzahl von Zwecken verwenden. Ein Beispiel ist die Wiederverwendung von Texten auf einer anderen Website, um das Suchmaschinenranking der ersten Website zu stehlen oder Nutzende zu täuschen. Ein Angreifer könnte auch den HTML- und CSS-Code einer Website verwenden, um das Aussehen einer legitimen Website oder das Branding eines anderen Unternehmens zu duplizieren. Cyberkriminelle können gestohlene Inhalte zur Erstellung von Phishing-Websites verwenden, die Nutzende zur Eingabe personenbezogener Informationen verleiten, weil sie wie die echte Version einer anderen Website aussehen.
Durch Web Scraping entstehen potenziell zahlreiche geschäftliche Nachteile und Risiken.
Beim Price Scraping werden alle Preisinformationen einer Website heruntergeladen, häufig von einem Konkurrenten. Dies kann schädlich sein, wenn der Wettbewerber seine Preise anpasst, um sie attraktiver zu gestalten, wodurch Verbraucher eher beim Wettbewerber als auf der ursprünglich gescrapten Website kaufen.
Contact Scraping bezieht sich auf das Scannen einer Website nach Kontaktinformationen, wie z. B. Telefonnummern und E-Mail-Adressen, und das anschließende Herunterladen dieser Informationen. Diese Art von Scraping geschieht oft mit dem Ziel, neue Ziele für Spam zu finden.
Unter Was ist Data Scraping? finden Sie weitere Informationen.
Bot-Management-Lösungen können Bot-Verhaltensmuster identifizieren und Bot-Scraping-Aktivitäten bekämpfen, häufig mithilfe von maschinellem Lernen. Auch Rate Limiting (Durchsatzbegrenzung) kann dazu beitragen, Content Scraping zu verhindern: Ein echter Nutzender wird wahrscheinlich nicht den Inhalt von mehreren Hundert Seiten in wenigen Sekunden oder Minuten anfordern, und jeder „Nutzender“, der so schnell Anfragen stellt, ist wahrscheinlich ein Bot. Darüber hinaus hilft es, Zwischenschritte oder Prüfungen einzuführen, die Bots nicht bewältigen können, um echte Nutzende von Bots zu unterscheiden.
Cloudflare Bot-Management schützt Ihre Website vor bösartigem Bot-Traffic, um Content-Scraping-Bots in Schach zu halten. Das auf maschinellem Lernenbasierende Cloudflare Bot Management kann Bots anhand von Verhaltensmustern identifizieren, was zu weniger Reibung für Nutzende und weniger falsch-positiven Ergebnissen führt. Für einen robusten Ansatz zur Bekämpfung des Scrapings kann die Bot-Erkennung mit der Durchsatzbegrenzung von Anfragen und dem Verwalten von Sicherheitsüberprüfungen mit Turnstile kombiniert werden.
Kleinere Organisationen können mit dem Super Bot Fight-Modus auch Scraping-Angriffe blockieren und Einblick in ihren Bot-Traffic erhalten. Der Super Bot Fight-Modus ist für die Cloudflare Pro- und Business-Tarife verfügbar.