Was ist ein Webcrawler? | So funktionieren Web Spider

Ein Webcrawler oder Spider ist eine Art von Bot, der in der Regel von Suchmaschinen wie Google und Bing genutzt wird. Sie dienen dazu, den Inhalt von Websites im gesamten Internet zu indexieren, damit diese Websites in den Suchmaschinenergebnissen aufgeführt werden können.

Share facebook icon linkedin icon twitter icon email icon

Webcrawler

Lernziele

Nach Lektüre dieses Artikels können Sie Folgendes:

  • Erfahren Sie, was ein Webcrawler-Bot (oder Spider) ist
  • So wählt ein Webcrawler die zu durchsuchenden Seiten aus
  • Der Unterschied zwischen Webcrawling und Web Scraping
  • Erkunden Sie, ob Web-Crawling auf einer bestimmten Webseite zugelassen werden soll oder nicht

Was ist ein Webcrawler-Bot?

Ein Webcrawler, Spider oder Suchmaschinen-Bot lädt Inhalte aus dem gesamten Internet herunter und indexiert sie. Die Absicht eines solchen Bot ist es, zu erfahren, um was es bei (fast) jeder Webseite im Internet geht, damit die Informationen bei Bedarf abgerufen werden können. Sie werden als „Webcrawler“ bezeichnet, weil Crawling der Fachbegriff für den automatischen Zugriff auf eine Website und die Erfassung von Daten über ein Softwareprogramm ist.

Diese Bots werden fast immer von Suchmaschinen eingesetzt. Durch die Anwendung eines Suchalgorithmus auf die von Webcrawlern gesammelten Daten können Suchmaschinen relevante Links als Antwort auf Suchanfragen von Benutzern bereitstellen und die Liste der Webseiten erstellen, die nach der Eingabe einer Suche in Google oder Bing (oder einer anderen Suchmaschine) erscheinen.

Ein Webcrawler-Bot ist wie eine Person, die alle Bücher in einer unorganisierten Bibliothek durchsucht und einen Kartenkatalog aufstellt, damit alle Besucher der Bibliothek schnell und einfach die Informationen finden können, die sie benötigen. Zur besseren Kategorisierung und Sortierung der Bücher der Bibliothek nach Themen liest der Organisator den Titel, die Zusammenfassung und einen Teil des internen Textes der einzelnen Bücher, um herauszufinden, worum es geht.

Im Gegensatz zu einer Bibliothek besteht das Internet jedoch nicht aus echten Stapeln von Büchern, und deshalb kann man schwer nachvollziehen, ob alle notwendigen Informationen richtig indexiert wurden oder ein riesiger Teil davon übersehen wird. Um alle relevanten Informationen zu finden, die das Internet zu bieten hat, beginnt ein Webcrawler-Bot mit einem bestimmten Satz bekannter Webseiten und folgt dann Hyperlinks von diesen Seiten zu anderen Seiten, folgt Hyperlinks von diesen anderen Seiten zu weiteren Seiten, usw.

Es ist nicht bekannt, wie viel von dem öffentlich zugänglichen Internet tatsächlich von Suchmaschinen-Bots durchsucht wird. Einige Quellen gehen davon aus, dass nur 40 bis 70 % des Internets für die Suche indexiert sind - und das sind Milliarden von Webseiten.

Was ist die Suchindexierung?

Die Suchindexierung ist wie die Erstellung eines Kartenkatalogs für das Internet, damit eine Suchmaschine weiß, wo im Internet Informationen abgerufen werden können, wenn eine Person danach sucht. Sie ist auch mit dem Index auf der Rückseite eines Buches vergleichbar, der alle Stellen im Buch auflistet, an denen ein bestimmtes Thema oder ein bestimmter Satz erwähnt wird.

Die Indexierung konzentriert sich hauptsächlich auf den auf der Seite angezeigten Text und auf die Metadaten* über die Seite, die Benutzer nicht sehen. Die meisten Suchmaschinen, fügen, wenn sie eine Seite indexieren, alle Wörter auf der Seite dem Index hinzu - außer im Falle von Google Wörter wie „ein“, „eine“, „der“, „die“ und „das“. Wenn Benutzer nach diesen Wörtern suchen, durchsucht die Suchmaschine in ihrem Index alle Seiten, in denen diese Wörter auftauchen und wählt die relevantesten aus.

*Metadaten sind im Rahmen der Suchindexierung Daten, die Suchmaschinen sagen, worum es bei einer Webseite geht. Im Gegensatz zu Inhalten von der Webseite, die für die Benutzer sichtbar sind, sind der Meta-Titel und die Meta-Beschreibung oft das, was auf den Ergebnisseiten der Suchmaschinen angezeigt wird.

Wie funktionieren Webcrawler?

Das Internet verändert sich und wächst ständig. Da man nicht genau wissen kann, wie viele Webseiten es insgesamt im Internet gibt, gehen Webcrawler-Bots von einem Seed oder einer Liste bekannter URLs aus. Sie durchsuchen zuerst die Webseiten unter diesen URLs. Während sie diese Webseiten durchsuchen, finden sie Hyperlinks zu anderen URLs und fügen diese zur Liste der Seiten hinzu, die als nächstes durchsucht werden.

Angesichts der großen Anzahl von Webseiten im Internet, die für die Suche indexiert werden könnten, könnte dieser Vorgang fast beliebig lange andauern. Ein Web-Crawler folgt jedoch bestimmten Richtlinien, durch die er selektiver wird bzgl. der Frage, welche Seiten er durchsuchen soll, in welcher Reihenfolge er diese Seiten durchsuchen soll und wie oft er sie erneut durchsuchen soll, um nach Aktualisierungen von Inhalten zu suchen.

Die relative Bedeutung jeder Webseite: Die meisten Webcrawler durchsuchen nicht das gesamte öffentlich zugängliche Internet und sollen dies auch nicht tun. Sie entscheiden vielmehr, welche Seiten zuerst durchsucht werden sollen, und zwar basierend auf der Anzahl der anderen Seiten, die auf diese Seite verweisen, der Anzahl der Besucher dieser Seite, und anderen Faktoren, die darauf hinweisen, dass die Seite wahrscheinlich wichtige Informationen enthält.

Die Überlegung dahinter ist, dass eine Webseite, die von vielen anderen Webseiten erwähnt wird und viele Besucher anlockt, wahrscheinlich qualitativ hochwertige, zuverlässige Informationen enthält, und es daher besonders wichtig ist, dass die jeweilige Suchmaschine sie indexiert - so wie eine Bibliothek dafür sorgt, dass sie viele Exemplare eines Buches hat, das von vielen Personen ausgeliehen wird.

Erneutes Aufrufen von Webseiten: Inhalte im Internet werden ständig aktualisiert, entfernt oder an neue Stellen verschoben. Webcrawler müssen die Seiten regelmäßig erneut besuchen, damit sichergestellt ist, dass die neueste Version des Inhalts indexiert wird.

Robots.txt-Voraussetzungen: Webcrawler entscheiden auch, welche Seiten basierend auf dem robots.txt-Protokoll (auch bekannt als das Robots-Exclusion-Protokoll) durchsucht werden sollen. Bevor sie eine Webseite durchsuchen, überprüfen sie die auf dem Webserver dieser Seite gehostete robots.txt-Datei. Die robots.txt-Datei ist eine Textdatei, welche die Regeln für alle Bots festlegt, die auf die gehostete Website oder Anwendung zugreifen. Diese Regeln definieren, welche Seiten die Bots durchsuchen dürfen und welchen Links sie folgen dürfen. Sehen Sie sich als Beispiel die robots.txt-Datei von Cloudflare.com an.

Alle diese Faktoren werden innerhalb der proprietären Algorithmen, die jede Suchmaschine in ihren Spider-Bots einsetzt, unterschiedlich gewichtet. Webcrawler unterschiedlicher Suchmaschinen verhalten sich auch unterschiedlich, obwohl das Endziel das gleiche ist: die Inhalte von Webseiten herunterladen und indexieren.

Warum werden Webcrawler „Spider“ genannt?

Das Internet, oder zumindest der Teil davon, auf den die meisten Benutzer zugreifen, wird auch als World Wide Web bezeichnet - Daher das Kürzel „www“ bei den meisten Website-URLs. Es war nur eine logische Konsequenz, Suchmaschinen-Bots als „Spiders“ (Spinnen) zu bezeichnen, denn sie krabbeln überall im Internet herum, so wie echte Spinnen auf Spinnweben herumkrabbeln.

Sollten Webcrawler-Bots immer auf Websites zugreifen dürfen?

Das hängt von der Website und von einer Reihe von Faktoren ab. Webcrawler brauchen Serverressourcen, um Inhalte zu indexieren - sie stellen Anfragen, auf die der Server antworten muss, wie bei einem Benutzer, der eine Website besucht oder andere Bots, die auf eine Website zugreifen. Je nach Menge der Inhalte auf jeder Seite oder der Anzahl der Seiten der Website kann es im besten Interesse des Betreibers einer Website sein, die Suchindexierung nicht zu oft zu erlauben, da eine zu starke Indexierung den Server überlasten bzw. die Bandbreitenkosten erhöhen kann oder beides.

Außerdem möchten Entwickler oder Unternehmen unter Umständen nicht, dass einige Webseiten auffindbar sind, außer wenn einem Benutzer bereits ein Link zu der Seite mitgeteilt wurde (ohne eine Paywall oder Anmeldeseite vor die Seite zu stellen). Ein Beispiel für einen solchen Fall für Unternehmen ist, wenn eine spezielle Startseite für eine Marketingkampagne erstellt wird, aber das Unternehmen nicht möchte, dass jemand, der nicht zu der Zielgruppe der Kampagne gehört, auf die Seite zugreift. Auf diese Weise kann das Unternehmen die Botschaften anpassen oder die Leistung der Seite genau messen. In solchen Fällen kann das Unternehmen einen „No Index“-Tag zur Startseite hinzufügen, damit sie nicht in den Suchmaschinenergebnissen auftaucht. Man kann auch einen „Disallow“-(Ablehnen)Tag zu der Seite oder zu der robots.txt-Datei hinzufügen. Dann durchsuchen Suchmaschinen-Spider sie auf keinen Fall.

Besitzer einer Website möchten aus verschiedensten Gründen nicht, dass Webcrawler-Bots einen Teil oder alle ihre Websites durchsuchen. Eine Website beispielsweise, die Benutzern die Möglichkeit zur Suche innerhalb der Website bietet, möchte die Suchergebnisseiten blockieren, da diese für die meisten Benutzer nicht nützlich sind. Andere automatisch generierte Seiten, die nur für einen Benutzer oder wenige bestimmte Benutzer nützlich sind, sollten ebenfalls blockiert werden.

Was ist der Unterschied zwischen Webcrawling und Web Scraping?

Web Scraping, Data Scraping oder Content Scraping ist, wenn ein Bot den Inhalt einer Website ohne Erlaubnis herunterlädt, oft mit der Absicht, diesen Inhalt für einen böswilligen Zweck zu verwenden.

Web Scraping ist meist viel zielgerichteter als Webcrawling. Web Scraper können nur nach bestimmten Seiten oder bestimmten Websites suchen, während Webcrawler weiteren Links folgen und Seiten fortlaufend crawlen.

Web-Scraper-Bots ignorieren unter Umständen auch die Belastung von Webservern, während Webcrawler, vor allem die von großen Suchmaschinen, die robots.txt-Datei-Anforderungen respektieren und ihre Anfragen begrenzen, um den Webserver nicht zu überfordern.

Wie wirken sich Webcrawler auf die SEO aus?

SEO steht für Suchmaschinenoptimierung, und bei dieser Disziplin geht es um die Aufbereitung von Inhalten für die Suchindexierung, damit eine Website in den Suchmaschinenergebnissen höher angezeigt wird.

Durchsuchen Spider-Bots eine Website nicht, kann sie nicht indexiert werden, und sie wird in den Suchergebnissen nicht angezeigt. Wenn ein Besitzer einer Website daher organischen Traffic aus den Suchergebnissen erhalten möchte, ist es besonders wichtig, dass er Web-Crawler-Bots nicht blockiert.

Welche Webcrawler-Bots sind im Internet aktiv?

Die Bots der wichtigsten Suchmaschinen heißen:

  • Google: Googlebot (derzeit zwei Crawler, Googlebot Desktop und Googlebot Mobile, für die Desktop- und mobile Suche)
  • Bing: Bingbot
  • Yandex (Russische Suchmaschine): Yandex Bot
  • Baidu (Chinesische Suchmaschine): Baidu Spider

Es gibt auch viele weniger gebräuchliche Web-Crawler-Bots, von denen einige nicht zu einer Suchmaschine gehören.

Warum ist es für das Bot-Management wichtig, das Webcrawling miteinzubeziehen?

Schädliche Bots können viel Schaden anrichten, von schlechten Benutzererfahrungen über Serverausfälle bis hin zum Datendiebstahl. Beim Blockieren von schädlichen Bots ist es allerdings wichtig, dass vertrauenswürdige Bots, wie z. B. Webcrawler, weiterhin auf Websites zugreifen können. Mit Cloudflare Bot-Management können vertrauenswürdige Bots weiterhin auf Websites zugreifen und gleichzeitig den böswilligen Bot-Traffic abwehren. Das Produkt führt eine automatisch aktualisierte Whitelist von vertrauenswürdigen Bots, wie z. B. Webcrawlern, damit diese nicht blockiert werden.