Was ist Content Scraping? | Web Scraping

Beim Content Scraping oder Web Scraping laden Bots alle Inhalte einer Website herunter oder „scrapen“ sie, häufig, um diese Inhalte böswillig zu verwenden.

Lernziele

Nach Lektüre dieses Artikels können Sie Folgendes:

  • Sie wissen, was Content Scraping ist
  • Sie verstehen, wie ein Web-Scraping-Bot funktioniert
  • Sie können erklären, warum Angreifer Inhalte scrapen
  • Sie wissen, wie Content Scraping gestoppt werden kann

Link zum Artikel kopieren

Was ist Content Scraping?

Content Scraping oder Web Scraping bezeichnet den Vorgang, wenn ein Bot einen Großteil oder den gesamten Inhalt einer Website herunterlädt, unabhängig von den Wünschen des Website-Besitzers. Content Scraping ist eine Form von Data Scraping. Es wird fast immer von automatisierten Bots ausgeführt. Website-Scraper-Bots können manchmal den gesamten Inhalt einer Website in Sekundenschnelle herunterladen.

Content-Scraping-Bots werden häufig dazu verwendet, die abgegriffenen Inhalte für böswillige Zwecke zu verwenden, wie z. B. das Duplizieren von Inhalten für SEO auf Websites, die dem Angreifer gehören, die Verletzung von Urheberrechten und das Stehlen von organischem Traffic. Zum Content Scraping kann auch das Ausfüllen und Einreichen von Formularen gehören, um Zugriff auf zugriffsbeschränkte Inhalte zu erhalten – als Nebenprodukt führt dies zu Datenmüll in der Datenbank eines Unternehmens. Darüber hinaus nimmt die Erfüllung von HTTP-Anfragen von Bots Serverressourcen in Anspruch, die sonst von menschlichen Benutzern genutzt werden könnten.

Wie scrapen Bots Inhalte?

Ein Website-Scraper-Bot sendet in der Regel eine Reihe von HTTP-GET-Anfragen und kopiert und speichert dann alle Informationen, die der Webserver als Antwort sendet. Dabei bahnt er sich seinen Weg durch die Hierarchie einer Website, bis er den gesamten Inhalt kopiert hat.

Ausgefeiltere Scraper-Bots können JavaScript verwenden, um beispielsweise alle Formulare auf einer Website auszufüllen und zugriffsbeschränkte Inhalte herunterzuladen. „Browser-Automatisierungs“-Programme und APIs ermöglichen eine automatisierte Bot-Interaktion mit Websites und APIs, die den Anschein erweckt, als handle es sich um einen herkömmlichen Webbrowser, und den Server der Website dadurch glauben lässt, ein menschlicher Benutzer würde auf die Inhalte zugreifen.

Sicher, eine Einzelperson könnte eine ganze Website manuell kopieren und einfügen, aber Bots können den gesamten Inhalt einer Website oft in Sekundenschnelle durchsuchen und herunterladen. Das gilt selbst für große Sites wie E-Commerce-Sites mit Hunderten oder Tausenden einzelner Produktseiten.

Auf welche Arten von Inhalten zielen Content-Scraping-Bots ab?

Bots können alles scrapen, was öffentlich im Internet veröffentlicht wird: Texte, Bilder, HTML-Code, CSS-Code und so weiter. Angreifer können die gescrapten Daten für eine Vielzahl von Zwecken verwenden. Der Text kann auf einer anderen Website wiederverwendet werden, um das Ranking der ursprünglichen Website in Suchmaschinenergebnissen zu stehlen oder um Benutzer zu täuschen. Ein Angreifer könnte den HTML- und CSS-Code einer Website verwenden, um das Aussehen einer legitimen Website oder das Branding eines anderen Unternehmens zu duplizieren. Cyberkriminelle können gestohlene Inhalte zur Erstellung von Phishing-Websites verwenden, die Benutzer zur Eingabe personenbezogener Informationen verleiten, weil sie wie die echte Version einer anderen Website aussehen.

Welche anderen Arten von Web Scraping gibt es?

Contact Scraping

Dies bezieht sich auf das Durchsuchen von Websites nach Kontaktinformationen wie Telefonnummern und E-Mail-Adressen und das anschließende Herunterladen dieser Informationen. E-Mail-Harvesting-Bots sind eine Art von Scraper-Bots, die speziell auf E-Mail-Adressen abzielen, in der Regel mit dem Ziel, neue Ziele für Spam zu finden.

Price Scraping

Dies ist der Fall, wenn ein Unternehmen alle Preisinformationen von der Website eines Konkurrenten herunterlädt, damit es seine eigenen Preise entsprechend anpassen kann.

Unter Was ist Data Scraping? finden Sie weitere Informationen.

Wie können Unternehmen Web Scraping verhindern?

Bot-Management-Lösungen können Bot-Verhaltensmuster identifizieren und Bot-Scraping-Aktivitäten bekämpfen, häufig mithilfe von maschinellem Lernen. Auch Durchsatzbegrenzung kann dazu beitragen, Content Scraping zu verhindern: Ein echter Benutzer wird wahrscheinlich nicht den Inhalt von mehreren hundert Seiten in wenigen Sekunden oder Minuten anfordern, und jeder „Benutzer“, der so schnell Anfragen stellt, ist sehr wahrscheinlich ein Bot. CAPTCHA können ebenfalls dabei helfen, die wirklichen Benutzer von Bots zu unterscheiden.

Cloudflare Bot Management wurde entwickelt, um Content-Scraping-Angriffe zu blockieren und andere Arten von böswilligem Traffic zu bekämpfen. Im Gegensatz zu Durchsatzbegrenzungs- oder CAPTCHA-Lösungen kann das auf maschinellem Lernen basierende Cloudflare Bot Management Bots anhand von Verhaltensmustern identifizieren. Das führt zu weniger Reibungsverlusten für Nutzer und weniger falsch-positiven Ergebnissen (Nutzer, die versehentlich als Bots identifiziert werden). Kleinere Unternehmen können auch Content-Scraping-Angriffe blockieren und mit dem Super Bot Fight Mode, der jetzt für die Cloudflare Pro- und Business-Tarife verfügbar ist, Einblick in ihren Bot-Traffic gewinnen.