Was ist Content Scraping? | Web Scraping

Beim Content Scraping oder Web Scraping laden Bots alle Inhalte einer Website herunter oder „scrapen“ sie, häufig, um diese Inhalte böswillig zu verwenden.

Lernziele

Nach Lektüre dieses Artikels können Sie Folgendes:

  • Sie wissen, was Content Scraping ist
  • Sie verstehen, wie ein Web-Scraping-Bot funktioniert
  • Sie können erklären, warum Angreifer Inhalte scrapen
  • Sie wissen, wie Content Scraping gestoppt werden kann

Ähnliche Inhalte


Möchten Sie noch mehr erfahren?

Abonnieren Sie theNET, Cloudflares monatliche Zusammenfassung der beliebtesten Einblicke in das Internet!

Lesen Sie die Cloudflare Datenschutzrichtlinie, um zu erfahren, wie wir Ihre persönlichen Daten sammeln und verarbeiten.

Link zum Artikel kopieren

Was ist Content Scraping?

Content Scraping Bot

Content Scraping oder Web Scraping bezeichnet den Vorgang, wenn ein Bot einen Großteil oder den gesamten Inhalt einer Website herunterlädt, unabhängig von den Wünschen des Website-Besitzers. Content Scraping ist eine Form von Data Scraping, die auf Inhalte abzielt – von der ursprünglichen Webgrafik über einen professionellen Lebenslauf bis hin zu einer Restaurantbewertung. In den meisten Fällen wird das Scraping von automatisierten Bots durchgeführt, die Informationen in großem Umfang und schnell sammeln können.

Content Scraping kann für legitime Zwecke verwendet werden, wie z. B. zum Aggregieren von Daten für die Suchmaschinenoptimierung. Scraping-Bots werden jedoch häufig dazu verwendet, Inhalte für böswillige Zwecke wiederzuverwenden, z. B. zur Verletzung von Urheberrechten, zur Duplizierung von Inhalten zur Suchmaschinenoptimierung auf Websites, die dem Angreifer gehören, und zum Stehlen von organischem Traffic. Diese Bots können auch zu verzerrten Nutzungsanalysen und einer Überlastung der Serverressourcen führen.

Wie scrapen Bots Inhalte?

Ein Website-Scraper-Bot sendet in der Regel eine Reihe von HTTP-GET-Anfragen und kopiert und speichert dann alle Informationen, die der Webserver als Antwort sendet. Dabei bahnt er sich seinen Weg durch die Hierarchie einer Website, bis er den gesamten Inhalt kopiert hat.

Ausgefeiltere Scraper-Bots können JavaScript verwenden, um beispielsweise alle Formulare auf einer Website auszufüllen, um auf zugriffsbeschränkte Inhalte zuzugreifen und diese herunterzuladen. „Browser-Automatisierungs“-Programme und APIs ermöglichen eine automatisierte Bot-Interaktion mit Websites und APIs, die den Anschein erweckt, als handle es sich um einen herkömmlichen Webbrowser, und den Server der Website dadurch glauben lässt, ein menschlicher Nutzender würde auf die Inhalte zugreifen.

Sicher, eine Einzelperson könnte stattdessen eine ganze Website manuell kopieren und einfügen, aber Bots können den gesamten Inhalt einer Website innerhalb von Sekunden durchsuchen und herunterladen, selbst bei großen E-Commerce-Sites mit Hunderten oder Tausenden von einzelnen Produktseiten.

Auf welche Arten von Inhalten zielen Scraping-Bots ab?

Bots können alles scrapen, was öffentlich im Internet publiziert wird: Texte, Bilder, HTML-Code, CSS-Code und so weiter. Angreifer können die gescrapten Daten dann für eine Vielzahl von Zwecken verwenden. Ein Beispiel ist die Wiederverwendung von Texten auf einer anderen Website, um das Suchmaschinenranking der ersten Website zu stehlen oder Nutzende zu täuschen. Ein Angreifer könnte auch den HTML- und CSS-Code einer Website verwenden, um das Aussehen einer legitimen Website oder das Branding eines anderen Unternehmens zu duplizieren. Cyberkriminelle können gestohlene Inhalte zur Erstellung von Phishing-Websites verwenden, die Nutzende zur Eingabe personenbezogener Informationen verleiten, weil sie wie die echte Version einer anderen Website aussehen.

Business-Probleme durch Web Scraping

Durch Web Scraping entstehen potenziell zahlreiche geschäftliche Nachteile und Risiken.

  • Preisdumping – Wettbewerber scrapen meine Preise, unterbieten sie und nehmen mir dadurch Verkäufe ab. Dies betrifft jeden Kunden, der etwas verkauft, sei es ein Produkt oder eine Dienstleistung.
  • Verzerrte Geschäftsanalysen beeinflussen die Planung – Unternehmen berücksichtigen Nutzungskennzahlen als Faktor bei Geschäftsentscheidungen, insbesondere in Bezug auf Marketing, Präsentation und die Frage, wo weitere Ressourcen eingesetzt werden können. Diese Nutzungsdaten werden durch Scraper verfälscht.
  • Beeinträchtigte Website-Performance – Umfassende Vorgänge, die von Scrapern ausgeführt werden, können dazu führen, dass Websites langsamer werden. In Fällen von extremem Scraping sind die Server der Kunden möglicherweise nicht in der Lage, den Datenverkehr zu bewältigen, sodass die Website für legitime Nutzende nicht mehr zugänglich ist. Dies ist für Online-Händler besonders schädlich, da sie Verkäufe verhindern würden.
  • Zusätzliche Betriebskosten: Die von Scrapern genutzte Bandbreite kann die Kosten erheblich in die Höhe treiben.
  • Die Nutzenden holen sich meine Informationen woanders – Endnutzende können die gleiche Information über einen KI-Chatbot oder eine andere Website finden, sodass die Quelle der ursprünglichen Information an Traffic verliert. Dies ist besonders nachteilig für Unternehmen, deren Geschäftsmodelle auf bezahlten Abonnements oder Werbeeinnahmen beruhen, insbesondere für Nachrichten-Websites, die nur abonnierten Nutzenden unbegrenzten Zugang gewähren, oder Unterhaltungs-Websites, deren Einnahmen stark auf Werbeaufrufe angewiesen sind.

Welche anderen Arten von Web Scraping gibt es?

Price Scraping

Beim Price Scraping werden alle Preisinformationen einer Website heruntergeladen, häufig von einem Konkurrenten. Dies kann schädlich sein, wenn der Wettbewerber seine Preise anpasst, um sie attraktiver zu gestalten, wodurch Verbraucher eher beim Wettbewerber als auf der ursprünglich gescrapten Website kaufen.

Contact Scraping

Contact Scraping bezieht sich auf das Scannen einer Website nach Kontaktinformationen, wie z. B. Telefonnummern und E-Mail-Adressen, und das anschließende Herunterladen dieser Informationen. Diese Art von Scraping geschieht oft mit dem Ziel, neue Ziele für Spam zu finden.

Unter Was ist Data Scraping? finden Sie weitere Informationen.

Wie können Unternehmen Web Scraping verhindern?

Bot-Management-Lösungen können Bot-Verhaltensmuster identifizieren und Bot-Scraping-Aktivitäten bekämpfen, häufig mithilfe von maschinellem Lernen. Auch Rate Limiting (Durchsatzbegrenzung) kann dazu beitragen, Content Scraping zu verhindern: Ein echter Nutzender wird wahrscheinlich nicht den Inhalt von mehreren Hundert Seiten in wenigen Sekunden oder Minuten anfordern, und jeder „Nutzender“, der so schnell Anfragen stellt, ist wahrscheinlich ein Bot. Darüber hinaus hilft es, Zwischenschritte oder Prüfungen einzuführen, die Bots nicht bewältigen können, um echte Nutzende von Bots zu unterscheiden.

Schützen Sie sich mit Cloudflare vor Web Scraping

Cloudflare Bot-Management schützt Ihre Website vor bösartigem Bot-Traffic, um Content-Scraping-Bots in Schach zu halten. Das auf maschinellem Lernenbasierende Cloudflare Bot Management kann Bots anhand von Verhaltensmustern identifizieren, was zu weniger Reibung für Nutzende und weniger falsch-positiven Ergebnissen führt. Für einen robusten Ansatz zur Bekämpfung des Scrapings kann die Bot-Erkennung mit der Durchsatzbegrenzung von Anfragen und dem Verwalten von Sicherheitsüberprüfungen mit Turnstile kombiniert werden.

Kleinere Organisationen können mit dem Super Bot Fight-Modus auch Scraping-Angriffe blockieren und Einblick in ihren Bot-Traffic erhalten. Der Super Bot Fight-Modus ist für die Cloudflare Pro- und Business-Tarife verfügbar.