Was ist Data Scraping?

Angreifer können mit Web-Scraping-Tools viel schneller als vorgesehen auf Daten zugreifen. Dies kann zur Folge haben, dass Daten für nicht autorisierte Zwecke verwendet werden.

Lernziele

Nach Lektüre dieses Artikels können Sie Folgendes:

  • Definition von Data Scraping
  • Die Hintergründe von Web Scraping
  • Verstehen Sie die Methoden zur Abwehr von Data Scraping
  • Unterschied zwischen Data Scraping und Data Crawling

Ähnliche Inhalte


Möchten Sie noch mehr erfahren?

Abonnieren Sie theNET, Cloudflares monatliche Zusammenfassung der beliebtesten Einblicke in das Internet!

Lesen Sie die Cloudflare Datenschutzrichtlinie, um zu erfahren, wie wir Ihre persönlichen Daten sammeln und verarbeiten.

Link zum Artikel kopieren

Schützen Sie sich mit Cloudflare vor Bot-Angriffen wie Credential Stuffing und Content Scraping

Was ist Data Scraping?

Data Scraping bezieht sich in seiner allgemeinsten Form auf eine Technik, bei der ein Computerprogramm Daten aus dem Output eines anderen Programms extrahiert. Data Scraping manifestiert sich häufig beim Web Scraping. Bei diesem Prozess wird eine Anwendung verwendet, um wertvolle Informationen von einer Website zu extrahieren.

Data Scraping

Welche verschiedenen Arten von Web Scraping gibt es? Warum Daten von einer Website scrapen?

Scraper Bots können für viele Zwecke ausgelegt sein, z. B.:

  1. Content Scraping – Der Inhalt einer Website wird entnommen, um den einzigartigen Vorteil eines bestimmten Produkts oder einer Dienstleistung, die auf Inhalte angewiesen ist, zu replizieren. Nehmen wir zum Beispiel eine Website für Restaurantbewertungen: Ein Wettbewerber könnte alle Bewertungen scrapen und die Inhalte dann auf seiner eigenen Website reproduzieren und vorgeben, dass die Inhalte das Original sind (und die Vorteile daraus ziehen).
  2. Price-Scraping – Durch das Scrapen von Preisdaten können Wettbewerber Informationen über ihre Konkurrenz sammeln. Das kann es ihnen ermöglichen, einen einzigartigen Vorteil zu erzielen, nämlich indem sie ihre Konkurrenten unterbieten und ihnen so Verkäufe stehlen.
  3. Contact-Scraping – Viele Websites enthalten E-Mail-Adressen und Telefonnummern als Klartext. Durch das Scrapen von Seiten wie Online-Mitarbeiterverzeichnissen kann ein Scraper Kontaktdaten sammeln, die in Massen-Mailinglisten, Robo-Calls oder böswilligen Social-Engineering-Versuchen verwendet werden können. Dies ist eine der wichtigsten Methoden, mit denen sowohl Spammer als auch Betrüger neue Ziele finden.

Was ist der Unterschied zwischen Data Scraping und Data Crawling?

Crawling bezieht sich auf den Prozess, den große Suchmaschinen wie Google ausführen, wenn sie ihre Roboter-Crawler wie Googlebot ins Netzwerk aussenden, um Internetinhalte zu indexieren. Das Scraping hingegen ist in der Regel speziell darauf ausgelegt, Daten von einer bestimmten Website zu extrahieren.

Hier sind 3 Unterschiede in der Verhaltenspraxis zwischen Scraper-Bots und Webcrawler-Bots:

  Ehrlichkeit/Transparenz Fortgeschrittene Manöver Beachten Sie die robots.txt
Scraper-Bot Gibt sich als Webbrowser aus, um Scraper-Blockierungen zu überwinden. Kann fortgeschrittene Maßnahmen ergreifen wie das Ausfüllen von Formularen, um auf zugriffsbeschränkte Informationen zuzugreifen. Hat robots.txt in der Regel nicht berücksichtigt, Das bedeutet, dass sie Inhalte explizit gegen den Wunsch des Website-Besitzers abrufen können.
Crawler-Bot Gibt seinen Zweck an, würde nicht versuchen, einer Website vorzugaukeln, der Crawler sei etwas, was sie nicht ist. Wird nicht versuchen, auf zugriffsbeschränkte Teile einer Website zuzugreifen. Respektiert robots.txt, Das heißt, sie richten sich nach den Vorstellungen des Website-Besitzers hinsichtlich der zu analysierenden Daten und der zu vermeidenden Bereiche der Website.

Wie werden Websites gescrapt?

Der Prozess des Web Scraping ist ziemlich einfach, auch wenn die Implementierung komplex sein kann. Wir können den Prozess in drei Schritten zusammenfassen:

  1. Zuerst sendet der Code-Teil, der zum Abrufen der Informationen verwendet wird (der Scraper-Bot), eine HTTP-GET-Anfrage an eine bestimmte Website.
  2. Wenn die Website antwortet, analysiert der Scraper das HTML-Dokument nach einem bestimmten Datenmuster.
  3. Sobald die Daten extrahiert sind, werden sie in ein beliebiges spezifisches Format umgewandelt, das vom Autor des Scraper-Bots entworfen wurde.

In der Regel möchten Unternehmen nicht, dass ihre einzigartigen Inhalte heruntergeladen und für nicht autorisierte Zwecke wiederverwendet werden. Daher versuchen sie möglicherweise, nicht alle Daten über eine nutzbare API oder eine andere leicht zugängliche Ressource verfügbar zu machen. Scraper-Bots hingegen möchten an Website-Daten herankommen, und zwar unabhängig davon, ob der Zugriff eingeschränkt ist. Daher beginnt ein Katz-und-Maus-Spiel zwischen Web-Scraping-Bots und verschiedenen Strategien zum Schutz von Inhalten, bei dem jeder versucht, den anderen zu überlisten.

Wie wird Web-Scraping bekämpft?

Smarte Scraping-Strategien erfordern smarte Abwehrstrategien. Zu den Methoden, um die Gefährdung durch Data-Scraping zu begrenzen, gehören unter anderem:

  1. Rate-Limit-Anfragen – Bei einem menschlichen Besucher, der über eine Reihe von Webseiten auf eine Webseite klickt, kann die Geschwindigkeit der Interaktion mit der Webseite ziemlich vorhersehbar sein; ein Mensch kann z. B. niemals 100 Webseiten pro Sekunde besuchen. Andererseits können Computer Anfragen um ein Vielfaches schneller stellen als ein Mensch, und unerfahrene Data Scraper können ungedrosselte Scraping-Techniken verwenden, um zu versuchen, eine ganze Website sehr schnell zu scrapen. Durch die Begrenzung der maximalen Anzahl von Anfragen, die eine bestimmte IP-Adresse in einem bestimmten Zeitraum stellen kann, können sich Websites vor ausbeuterischen Anfragen schützen und die Menge an Data Scraping begrenzen, die innerhalb dieses Zeitraums erfolgen kann.
  2. HTML-Markup in regelmäßigen Abständen ändern – Data Scraping Bots setzen auf eine einheitliche Formatierung, um Website-Inhalte effektiv zu durchlaufen und Daten zu analysieren. Eine Methode, diesen Workflow zu unterbrechen, ist das regelmäßige Ändern von Elementen des HTML-Markups. Durch Verschachtelung von HTML-Elementen oder die Änderung anderer Teile des Markups werden einfache Data Scraping-Angriffe behindert oder vereitelt. Beispielsweise nehmen einige Websites bei jedem Rendern einer Webseite zufällig eine Form der Änderung des Inhaltsschutzes vor; andere aktualisieren ihr Frontend alle paar Wochen, um längerfristige Data-Scraping-Angriffe zu verhindern.
  3. Verwenden Sie Challenges für Anfragende mit hohem Volumen – ein weiterer nützlicher Schritt zur Verlangsamung von Content Scrapern ist die Anforderung, dass Website-Besucher eine Aufgabe lösen müssen, die für einen Computer schwer zu bewältigen ist. Während ein Mensch die Aufgabe angemessen lösen kann, ist ein Headless-Browser* dazu höchstwahrscheinlich nicht in der Lage – insbesondere nicht bei mehreren Instanzen der Aufgabe.
  4. Eine weitere, weniger verbreitete Abwehrmethode erfordert die Einbettung von Inhalten in Medienobjekte wie Bilder. Da der Inhalt nicht in einer Zeichenkette vorliegt, ist das Kopieren des Inhalts wesentlich komplexer und erfordert Optische Zeichenerkennung (Optical Character Recognition, OCR), um die Daten aus einer Bilddatei zu extrahieren.

*Ein Headless-Browser ist eine Art Webbrowser, ähnlich wie Chrome oder Firefox, aber er verfügt standardmäßig nicht über eine visuelle Benutzeroberfläche, wodurch er sich viel schneller bewegen kann als ein herkömmlicher Webbrowser. Durch die Ausführung auf Befehlszeilenebene kann ein Headless-Browser die Darstellung ganzer Webanwendungen vermeiden. Data Scraper schreiben Bots, die Headless-Browser verwenden, um Daten schneller anzufordern, da kein Mensch die jeweilige zu scrapende Seite ansieht.

Wie kann man Web Scraping ganz stoppen?

Die einzige Möglichkeit, Web-Scraping vollständig zu unterbinden, besteht darin, keine Inhalte mehr auf einer Website zu veröffentlichen. Durch die Verwendung einer fortschrittlichen Bot-Management-Lösung können Websites jedoch den Zugriff für Scraper-Bots unterbinden.

Schützen Sie sich mit Cloudflare vor Scraping-Angriffen

Cloudflare Bot Management verwendet maschinelles Lernen und Verhaltensanalysen, um bösartige Scraping-Aktivitäten zu identifizieren, einzigartige Inhalte zu schützen und den Missbrauch einer Website durch Bots zu verhindern. Der Super Bot Fight-Modus soll kleineren Unternehmen helfen, sich vor Scrapern und anderen bösartigen Bot-Aktivitäten zu schützen und ihnen gleichzeitig mehr Einblick in ihren Bot-Traffic zu geben.