Was ist Content Scraping? | Web Scraping

Beim Content Scraping oder Web Scraping laden Bots alle Inhalte einer Website herunter oder „scrapen“ sie, häufig, um diese Inhalte böswillig zu verwenden.

Share facebook icon linkedin icon twitter icon email icon

Content Scraping

Lernziele

Nach Lektüre dieses Artikels können Sie Folgendes:

  • Sie wissen, was Content Scraping ist
  • Sie verstehen, wie ein Web-Scraping-Bot funktioniert
  • Sie können erklären, warum Angreifer Inhalte scrapen
  • Sie wissen, wie Content Scraping gestoppt werden kann

Was ist Content Scraping?

The OSI Model

Content Scraping oder Web Scraping bezeichnet den Vorgang, wenn ein Bot einen Großteil oder den gesamten Inhalt einer Website herunterlädt, unabhängig von den Wünschen des Website-Besitzers. Content Scraping ist eine Form von Data Scraping. Es wird fast immer von automatisierten Bots ausgeführt. Website-Scraper-Bots können manchmal den gesamten Inhalt einer Website in Sekundenschnelle herunterladen.

Content-Scraping-Bots werden häufig dazu verwendet, die abgegriffenen Inhalte für böswillige Zwecke zu verwenden, wie z. B. das Duplizieren von Inhalten für SEO auf Websites, die dem Angreifer gehören, die Verletzung von Urheberrechten und das Stehlen von organischem Traffic. Zum Content Scraping kann auch das Ausfüllen und Einreichen von Formularen gehören, um Zugriff auf zugriffsbeschränkte Inhalte zu erhalten – als Nebenprodukt führt dies zu Datenmüll in der Datenbank eines Unternehmens. Darüber hinaus nimmt die Erfüllung von HTTP-Anfragen von Bots Serverressourcen in Anspruch, die sonst von menschlichen Benutzern genutzt werden könnten.

Wie scrapen Bots Inhalte?

Ein Website-Scraper-Bot sendet in der Regel eine Reihe von HTTP-GET-Anfragen und kopiert und speichert dann alle Informationen, die der Webserver als Antwort sendet. Dabei bahnt er sich seinen Weg durch die Hierarchie einer Website, bis er den gesamten Inhalt kopiert hat.

Ausgefeiltere Scraper-Bots können JavaScript verwenden, um beispielsweise alle Formulare auf einer Website auszufüllen und zugriffsbeschränkte Inhalte herunterzuladen. „Browser-Automatisierungs“-Programme und APIs ermöglichen eine automatisierte Bot-Interaktion mit Websites und APIs, die den Anschein erweckt, als handle es sich um einen herkömmlichen Webbrowser, und den Server der Website dadurch glauben lässt, ein menschlicher Benutzer würde auf die Inhalte zugreifen.

Sicher, eine Einzelperson könnte eine ganze Website manuell kopieren und einfügen, aber Bots können den gesamten Inhalt einer Website oft in Sekundenschnelle durchsuchen und herunterladen. Das gilt selbst für große Sites wie E-Commerce-Sites mit Hunderten oder Tausenden einzelner Produktseiten.

Auf welche Arten von Inhalten zielen Content-Scraping-Bots ab?

Bots können alles scrapen, was öffentlich im Internet veröffentlicht wird: Texte, Bilder, HTML-Code, CSS-Code und so weiter. Angreifer können die gescrapten Daten für eine Vielzahl von Zwecken verwenden. Der Text kann auf einer anderen Website wiederverwendet werden, um das Ranking der ursprünglichen Website in Suchmaschinenergebnissen zu stehlen oder um Benutzer zu täuschen. Ein Angreifer könnte den HTML- und CSS-Code einer Website verwenden, um das Aussehen einer legitimen Website oder das Branding eines anderen Unternehmens zu duplizieren. Cyberkriminelle können gestohlene Inhalte zur Erstellung von Phishing-Websites verwenden, die Benutzer zur Eingabe persönlicher Daten verleiten, weil sie wie die echte Version einer anderen Website aussehen.

Welche anderen Arten von Web Scraping gibt es?

Contact Scraping

Dies bezieht sich auf das Durchsuchen von Websites nach Kontaktinformationen wie Telefonnummern und E-Mail-Adressen und das anschließende Herunterladen dieser Informationen. E-Mail-Harvesting-Bots sind eine Art von Scraper-Bots, die speziell auf E-Mail-Adressen abzielen, in der Regel mit dem Ziel, neue Ziele für Spam zu finden.

Price Scraping

Dies ist der Fall, wenn ein Unternehmen alle Preisinformationen von der Website eines Konkurrenten herunterlädt, damit es seine eigenen Preise entsprechend anpassen kann.

Weitere Informationen finden Sie unter Was ist Data Scraping?

Wie können Unternehmen Web Scraping verhindern?

Bot-Management-Lösungen können Bot-Verhaltensmuster identifizieren und Bot-Scraping-Aktivitäten abwehren, häufig mithilfe von maschinellem Lernen. Auch Rate Limiting kann dazu beitragen, Content Scraping zu verhindern: Ein echter Benutzer wird wahrscheinlich nicht den Inhalt von mehreren hundert Seiten in wenigen Sekunden oder Minuten anfordern, und jeder „Benutzer“, der so schnell Anfragen stellt, ist sehr wahrscheinlich ein Bot. Captchas können ebenfalls dabei helfen, die wirklichen Benutzer von Bots zu unterscheiden.

Cloudflare Bot-Management ist darauf ausgelegt, Content-Scraping-Angriffe zu blockieren und bietet darüber hinaus Bot-Abwehr für andere Arten von böswilligem Traffic. Im Unterschied zu Rate Limiting oder Captcha-Lösungen kann das auf maschinellem Lernen basierende Cloudflare Bot-Management Bots anhand von Verhaltensmustern identifizieren, was zu weniger Reibung für Benutzer und weniger falsch-positiven Ergebnissen (irrtümlich als Bots identifizierte Benutzer) führt.