What is data scraping?

Data scraping is a technique where a computer program extracts data from the output of another program. A common form of this is web scraping.

What are the different types of web scraping?

Web scraping can be used for many purposes, including: Content scraping: An attacker pulls a website's content to replicate it on their own site; Price scraping: A competitor scrapes pricing data to gain an advantage by undercutting prices; Contact scraping: A bot gathers contact details like email addresses and phone numbers from websites to be used for spam, robo calls, or malicious social engineering.

What is the difference between data scraping and web crawling?

Web crawling is the process used by large search engines to index Internet content, and crawler bots are generally transparent about their purpose. Data scraping, on the other hand, is typically designed to extract specific data from a particular website.

How do websites get scraped?

The process typically involves three steps. First, a scraper bot sends an HTTP GET request to a website. Second, when the website responds, the scraper parses the HTML document to find a specific pattern of data. Finally, the extracted data is converted into a specific format designed by the bot's author.

How can data scraping be mitigated?

Several strategies can limit exposure to data scraping. These include rate-limiting requests to block abnormally fast traffic from a single IP address, regularly modifying a website's HTML markup to disrupt simple scrapers, and using challenges like CAPTCHAs for high-volume requesters.

Can web scraping be stopped completely?

Using an advanced bot management solution can help websites eliminate access for scraper bots. Cloudflare Bot Management, for example, uses machine learning and behavioral analysis to identify and stop malicious scraping activity.

Was ist Data Scraping?

Angreifer können mit Web-Scraping-Tools viel schneller als vorgesehen auf Daten zugreifen. Dies kann zur Folge haben, dass Daten für nicht autorisierte Zwecke verwendet werden.

Lernziele

Nach Lektüre dieses Artikels können Sie Folgendes:

Definition von Data Scraping
Die Hintergründe von Web Scraping
Verstehen Sie die Methoden zur Abwehr von Data Scraping
Unterschied zwischen Data Scraping und Data Crawling

Ähnliche Inhalte

Was ist Content Scraping?

Was ist ein Bot?

Was ist Bot-Management?

Brute-Force-Angriff

Was ist Credential Stuffing?

Möchten Sie noch mehr erfahren?

Abonnieren Sie theNET und erhalten Sie monatlich die meistdiskutierten Internet-Insights von Cloudflare.

Link zum Artikel kopieren

Schützen Sie sich mit Cloudflare vor Bot-Angriffen wie Credential Stuffing und Content Scraping

Böswillige Bots stoppen

Was ist Data Scraping?

Data Scraping bezieht sich in seiner allgemeinsten Form auf eine Technik, bei der ein Computerprogramm Daten aus dem Output eines anderen Programms extrahiert. Data Scraping manifestiert sich häufig beim Web Scraping. Bei diesem Prozess wird eine Anwendung verwendet, um wertvolle Informationen von einer Website zu extrahieren.

Welche verschiedenen Arten von Web Scraping gibt es? Warum Daten von einer Website scrapen?

Scraper Bots können für viele Zwecke ausgelegt sein, z. B.:

Content Scraping – Der Inhalt einer Website wird entnommen, um den einzigartigen Vorteil eines bestimmten Produkts oder einer Dienstleistung, die auf Inhalte angewiesen ist, zu replizieren. Nehmen wir zum Beispiel eine Website für Restaurantbewertungen: Ein Wettbewerber könnte alle Bewertungen scrapen und die Inhalte dann auf seiner eigenen Website reproduzieren und vorgeben, dass die Inhalte das Original sind (und die Vorteile daraus ziehen).
Price-Scraping – Durch das Scrapen von Preisdaten können Wettbewerber Informationen über ihre Konkurrenz sammeln. Das kann es ihnen ermöglichen, einen einzigartigen Vorteil zu erzielen, nämlich indem sie ihre Konkurrenten unterbieten und ihnen so Verkäufe stehlen.
Contact-Scraping – Viele Websites enthalten E-Mail-Adressen und Telefonnummern als Klartext. Durch das Scrapen von Seiten wie Online-Mitarbeiterverzeichnissen kann ein Scraper Kontaktdaten sammeln, die in Massen-Mailinglisten, Robo-Calls oder böswilligen Social-Engineering-Versuchen verwendet werden können. Dies ist eine der wichtigsten Methoden, mit denen sowohl Spammer als auch Betrüger neue Ziele finden.

Was ist der Unterschied zwischen Data Scraping und Data Crawling?

Crawling bezieht sich auf den Prozess, den große Suchmaschinen wie Google ausführen, wenn sie ihre Roboter-Crawler wie Googlebot ins Netzwerk aussenden, um Internetinhalte zu indexieren. Das Scraping hingegen ist in der Regel speziell darauf ausgelegt, Daten von einer bestimmten Website zu extrahieren.

Hier sind 3 Unterschiede in der Verhaltenspraxis zwischen Scraper-Bots und Webcrawler-Bots:

	Ehrlichkeit/Transparenz	Fortgeschrittene Manöver	Beachten Sie die robots.txt
Scraper-Bot	Gibt sich als Webbrowser aus, um Scraper-Blockierungen zu überwinden.	Kann fortgeschrittene Maßnahmen ergreifen wie das Ausfüllen von Formularen, um auf zugriffsbeschränkte Informationen zuzugreifen.	Hat robots.txt in der Regel nicht berücksichtigt, Das bedeutet, dass sie Inhalte explizit gegen den Wunsch des Website-Besitzers abrufen können.
Crawler-Bot	Gibt seinen Zweck an, würde nicht versuchen, einer Website vorzugaukeln, der Crawler sei etwas, was sie nicht ist.	Wird nicht versuchen, auf zugriffsbeschränkte Teile einer Website zuzugreifen.	Respektiert robots.txt, Das heißt, sie richten sich nach den Vorstellungen des Website-Besitzers hinsichtlich der zu analysierenden Daten und der zu vermeidenden Bereiche der Website.

Wie werden Websites gescrapt?

Der Prozess des Web Scraping ist ziemlich einfach, auch wenn die Implementierung komplex sein kann. Wir können den Prozess in drei Schritten zusammenfassen:

Zuerst sendet der Code-Teil, der zum Abrufen der Informationen verwendet wird (der Scraper-Bot), eine HTTP-GET-Anfrage an eine bestimmte Website.
Wenn die Website antwortet, analysiert der Scraper das HTML-Dokument nach einem bestimmten Datenmuster.
Sobald die Daten extrahiert sind, werden sie in ein beliebiges spezifisches Format umgewandelt, das vom Autor des Scraper-Bots entworfen wurde.

In der Regel möchten Unternehmen nicht, dass ihre einzigartigen Inhalte heruntergeladen und für nicht autorisierte Zwecke wiederverwendet werden. Daher versuchen sie möglicherweise, nicht alle Daten über eine nutzbare API oder eine andere leicht zugängliche Ressource verfügbar zu machen. Scraper-Bots hingegen möchten an Website-Daten herankommen, und zwar unabhängig davon, ob der Zugriff eingeschränkt ist. Daher beginnt ein Katz-und-Maus-Spiel zwischen Web-Scraping-Bots und verschiedenen Strategien zum Schutz von Inhalten, bei dem jeder versucht, den anderen zu überlisten.

Wie wird Web-Scraping bekämpft?

Smarte Scraping-Strategien erfordern smarte Abwehrstrategien. Zu den Methoden, um die Gefährdung durch Data-Scraping zu begrenzen, gehören unter anderem:

Rate-Limit-Anfragen – Bei einem menschlichen Besucher, der über eine Reihe von Webseiten auf eine Webseite klickt, kann die Geschwindigkeit der Interaktion mit der Webseite ziemlich vorhersehbar sein; ein Mensch kann z. B. niemals 100 Webseiten pro Sekunde besuchen. Andererseits können Computer Anfragen um ein Vielfaches schneller stellen als ein Mensch, und unerfahrene Data Scraper können ungedrosselte Scraping-Techniken verwenden, um zu versuchen, eine ganze Website sehr schnell zu scrapen. Durch die Begrenzung der maximalen Anzahl von Anfragen, die eine bestimmte IP-Adresse in einem bestimmten Zeitraum stellen kann, können sich Websites vor ausbeuterischen Anfragen schützen und die Menge an Data Scraping begrenzen, die innerhalb dieses Zeitraums erfolgen kann.
HTML-Markup in regelmäßigen Abständen ändern – Data Scraping Bots setzen auf eine einheitliche Formatierung, um Website-Inhalte effektiv zu durchlaufen und Daten zu analysieren. Eine Methode, diesen Workflow zu unterbrechen, ist das regelmäßige Ändern von Elementen des HTML-Markups. Durch Verschachtelung von HTML-Elementen oder die Änderung anderer Teile des Markups werden einfache Data Scraping-Angriffe behindert oder vereitelt. Beispielsweise nehmen einige Websites bei jedem Rendern einer Webseite zufällig eine Form der Änderung des Inhaltsschutzes vor; andere aktualisieren ihr Frontend alle paar Wochen, um längerfristige Data-Scraping-Angriffe zu verhindern.
Verwenden Sie Challenges für Anfragende mit hohem Volumen – ein weiterer nützlicher Schritt zur Verlangsamung von Content Scrapern ist die Anforderung, dass Website-Besucher eine Aufgabe lösen müssen, die für einen Computer schwer zu bewältigen ist. Während ein Mensch die Aufgabe angemessen lösen kann, ist ein Headless-Browser* dazu höchstwahrscheinlich nicht in der Lage – insbesondere nicht bei mehreren Instanzen der Aufgabe.
Eine weitere, weniger verbreitete Abwehrmethode erfordert die Einbettung von Inhalten in Medienobjekte wie Bilder. Da der Inhalt nicht in einer Zeichenkette vorliegt, ist das Kopieren des Inhalts wesentlich komplexer und erfordert Optische Zeichenerkennung (Optical Character Recognition, OCR), um die Daten aus einer Bilddatei zu extrahieren.

*Ein Headless-Browser ist eine Art Webbrowser, ähnlich wie Chrome oder Firefox, aber er verfügt standardmäßig nicht über eine visuelle Benutzeroberfläche, wodurch er sich viel schneller bewegen kann als ein herkömmlicher Webbrowser. Durch die Ausführung auf Befehlszeilenebene kann ein Headless-Browser die Darstellung ganzer Webanwendungen vermeiden. Data Scraper schreiben Bots, die Headless-Browser verwenden, um Daten schneller anzufordern, da kein Mensch die jeweilige zu scrapende Seite ansieht.

Wie kann man Web Scraping ganz stoppen?

Die einzige Möglichkeit, Web-Scraping vollständig zu unterbinden, besteht darin, keine Inhalte mehr auf einer Website zu veröffentlichen. Durch die Verwendung einer fortschrittlichen Bot-Management-Lösung können Websites jedoch den Zugriff für Scraper-Bots unterbinden.

Schützen Sie sich mit Cloudflare vor Scraping-Angriffen

Cloudflare Bot Management verwendet maschinelles Lernen und Verhaltensanalysen, um bösartige Scraping-Aktivitäten zu identifizieren, einzigartige Inhalte zu schützen und den Missbrauch einer Website durch Bots zu verhindern. Der Super Bot Fight-Modus soll kleineren Unternehmen helfen, sich vor Scrapern und anderen bösartigen Bot-Aktivitäten zu schützen und ihnen gleichzeitig mehr Einblick in ihren Bot-Traffic zu geben.

FAQs

Was ist Data Scraping?

Data Scraping ist eine Technik, bei der ein Computerprogramm Daten aus dem Output eines anderen Programms extrahiert. Eine gängige Form davon ist das Web Scraping.

Welche verschiedenen Arten von Web Scraping gibt es?

Web Scraping kann für viele Zwecke eingesetzt werden, darunter: Content Scraping: Ein Angreifer greift den Inhalt einer Website ab, um ihn auf seiner eigenen Website zu replizieren. Price Scraping: Ein Wettbewerber greift Preisdaten ab, um sich durch Unterbietung der Preise einen Vorteil zu verschaffen. Contact Scraping: Ein Bot sammelt Kontaktdaten wie E-Mail-Adressen und Telefonnummern von Websites, um sie für Spam, Robo-Anrufe oder böswilliges Social Engineering zu verwenden.

Was ist der Unterschied zwischen Data Scraping und Web Crawling?

Web Crawling ist der Prozess, mit dem große Suchmaschinen Internetinhalte indexieren, wobei Crawler-Bots in der Regel in Bezug auf ihren Zweck transparent sind. Data Scraping hingegen dient in der Regel dazu, bestimmte Daten von einer bestimmten Website zu extrahieren.

Wie werden Websites gescrapt?

Der Prozess umfasst in der Regel drei Schritte. Zunächst sendet ein Scraper-Bot eine HTTP-GET-Anfrage an eine Website. Wenn die Website antwortet, analysiert der Scraper das HTML-Dokument, um ein bestimmtes Datenmuster zu finden. Schließlich werden die extrahierten Daten in ein bestimmtes Format konvertiert, das vom Autor des Bots entworfen wurde.

Wie kann Daten-Scraping eingeschränkt werden?

Es gibt verschiedene Strategien, um das Risiko von Data Scraping zu begrenzen. Dazu gehören die Begrenzung der Anfragerate (Rate Limiting), um ungewöhnlich schnellen Traffic von einer einzelnen IP-Adresse zu blockieren, die regelmäßige Änderung des HTML-Markups einer Website, um einfache Scraper zu stören, und die Verwendung von Herausforderungen wie CAPTCHAs für Anfragende mit hohem Datenvolumen.

Kann Web Scraping vollständig unterbunden werden?

Durch den Einsatz einer fortschrittlichen Bot-Management-Lösung können Websites den Zugriff von Scraper-Bots unterbinden. Cloudflare Bot Management nutzt beispielsweise maschinelles Lernen und Verhaltensanalysen, um böswillige Scraping-Aktivitäten zu identifizieren und zu unterbinden.

ERSTE SCHRITTE

Über Bots

Bot-Angriffe

Bot-Management

Glossar

Infocenter Nav.