Was ist ein Webcrawler? | So funktionieren Web Spider

Ein Webcrawler oder Spider ist eine Art von Bot, der in der Regel von Suchmaschinen wie Google und Bing genutzt wird. Sie dienen dazu, den Inhalt von Websites im gesamten Internet zu indexieren, damit diese Websites in den Suchmaschinenergebnissen aufgeführt werden können.

Share facebook icon linkedin icon twitter icon email icon

Webcrawler

Lernziele

Nach Lektüre dieses Artikels können Sie Folgendes:

  • Erfahren Sie, was ein Webcrawler-Bot (oder Spider) ist
  • So wählt ein Webcrawler die zu durchsuchenden Seiten aus
  • Der Unterschied zwischen Webcrawling und Web Scraping
  • Erkunden Sie, ob Web-Crawling auf einer bestimmten Webseite zugelassen werden soll oder nicht

Was ist ein Webcrawler-Bot?

Ein Webcrawler-, Spider- oder Suchmaschinen-Bot lädt Inhalte aus dem gesamten Internet herunter und indexiert sie. Der Zweck eines solchen Bot besteht darin herauszufinden, um was es bei (fast) jeder Webseite im Internet geht, damit die Informationen bei Bedarf abgerufen werden können. Sie werden als „Webcrawler“ bezeichnet, weil Crawling der Fachbegriff für den automatischen Zugriff auf eine Website und die Erfassung von Daten über ein Softwareprogramm ist.

Diese Bots werden fast immer von Suchmaschinen eingesetzt. Durch die Anwendung eines Suchalgorithmus auf die von Webcrawlern gesammelten Daten können Suchmaschinen relevante Links als Antwort auf Suchanfragen von Nutzern bereitstellen und die Liste der Webseiten erstellen, die nach der Eingabe einer Suche in Google oder Bing (oder einer anderen Suchmaschine) erscheinen.

Ein Webcrawler-Bot ist wie eine Person, die alle Bücher in einer unorganisierten Bibliothek durchsucht und einen Kartenkatalog aufstellt, damit alle Besucher der Bibliothek schnell und einfach die Informationen finden können, die sie benötigen. Zur besseren Kategorisierung und Sortierung der Bücher der Bibliothek nach Themen liest der Katalogersteller den Titel, die Zusammenfassung und einen Teil des internen Textes der einzelnen Bücher, um herauszufinden, worum es geht.

Im Gegensatz zu einer Bibliothek besteht das Internet jedoch nicht aus echten Stapeln von Büchern, und deshalb kann man schwer nachvollziehen, ob alle notwendigen Informationen richtig indexiert wurden oder ein riesiger Teil davon übersehen wird. Um alle relevanten Informationen zu finden, die das Internet zu bieten hat, beginnt ein Webcrawler-Bot mit einem bestimmten Satz bekannter Webseiten und folgt dann Hyperlinks von diesen Seiten zu anderen Seiten, folgt Hyperlinks von diesen anderen Seiten zu weiteren Seiten, usw.

Es ist nicht bekannt, wie viel vom öffentlich zugänglichen Internet tatsächlich von Suchmaschinen-Bots durchsucht wird. Einige Quellen gehen davon aus, dass nur 40 bis 70 % des Internets für die Suche indexiert sind – und das sind Milliarden von Webseiten.

Was ist die Suchindexierung?

Die Suchindexierung ist wie die Erstellung eines Kartenkatalogs für das Internet, damit eine Suchmaschine weiß, wo im Internet Informationen abgerufen werden können, wenn eine Person danach sucht. Sie ist auch mit dem Index am Ende eines Buches vergleichbar, der alle Stellen im Buch auflistet, an denen ein bestimmtes Thema oder eine bestimmte Formulierung erwähnt wird.

Die Indexierung konzentriert sich hauptsächlich auf den auf der Seite angezeigten Text und auf die Metadaten* über die Seite, die Nutzer nicht sehen. Die meisten Suchmaschinen nehmen, wenn sie eine Seite indexieren, alle Wörter auf der Seite in den Index auf – außer Wörter wie „ein“, „eine“, „der“, „die“ und „das“ im Falle von Google. Wenn Nutzer nach indexierten Wörtern suchen, durchsucht die Suchmaschine in ihrem Index alle Seiten, auf denen diese Wörter auftauchen, und wählt die relevantesten aus.

**Metadaten sind im Rahmen der Suchindexierung Daten, die Suchmaschinen sagen, worum es bei einer Webseite geht. Auf den Ergebnisseiten der Suchmaschinen werden oft Meta-Titel und Meta-Beschreibung angezeigt und nicht die sichtbaren Inhalte einer Webseite.

Wie funktionieren Webcrawler?

Das Internet verändert sich und wächst ständig. Da man nicht genau wissen kann, wie viele Webseiten es insgesamt im Internet gibt, gehen Webcrawler-Bots von einem Ausgangspunkt oder einer Liste bekannter URLs aus. Sie durchsuchen zuerst die Webseiten unter diesen URLs. Während sie diese Webseiten durchsuchen, finden sie Hyperlinks zu anderen URLs und fügen diese zur Liste der Seiten hinzu, die als nächstes durchsucht werden.

Angesichts der großen Anzahl von Webseiten im Internet, die für die Suche indexiert werden könnten, könnte dieser Vorgang fast beliebig lange dauern. Ein Webcrawler folgt jedoch bestimmten Richtlinien, durch die er selektiver vorgeht, zum Beispiel bei der Frage, welche Seiten er durchsuchen soll, in welcher Reihenfolge er diese Seiten durchsuchen soll und wie oft er sie erneut durchsuchen soll, um nach Aktualisierungen von Inhalten zu suchen.

Die relative Bedeutung jeder Webseite: Die meisten Webcrawler durchsuchen nicht das gesamte öffentlich zugängliche Internet und sollen dies auch nicht tun. Sie entscheiden vielmehr, welche Seiten zuerst durchsucht werden sollen, und zwar basierend auf der Anzahl der anderen Seiten, die auf diese Seite verweisen, der Anzahl der Besucher dieser Seite und anderen Faktoren, die darauf hinweisen, dass die Seite wahrscheinlich wichtige Informationen enthält.

Die Überlegung dahinter ist, dass eine Webseite, die von vielen anderen Webseiten erwähnt wird und viele Besucher anlockt, wahrscheinlich qualitativ hochwertige, zuverlässige Informationen enthält, und es daher besonders wichtig ist, dass die jeweilige Suchmaschine sie indexiert – so wie eine Bibliothek dafür sorgt, dass sie viele Exemplare eines Buches hat, das von vielen Personen ausgeliehen wird.

Erneutes Aufrufen von Webseiten: Inhalte im Internet werden ständig aktualisiert, entfernt oder an neue Stellen verschoben. Webcrawler müssen die Seiten regelmäßig erneut besuchen, damit sichergestellt ist, dass die neueste Version des Inhalts indexiert wird.

Regeln aus der Datei robots.txt: Webcrawler entscheiden auch, welche Seiten basierend auf dem robots.txt-Protokoll (auch bekannt als das Robots-Exclusion-Protokoll) durchsucht werden sollen. Bevor sie eine Webseite durchsuchen, überprüfen sie die auf dem Webserver dieser Seite gehostete Datei robots.txt. In der Textdatei robots.txt werden die Regeln für alle Bots festgelegt, die auf die gehostete Website oder Anwendung zugreifen. Diese Regeln definieren, welche Seiten die Bots durchsuchen dürfen und welchen Links sie folgen dürfen. Sehen Sie sich als Beispiel die Datei robots.txt von Cloudflare.com an.

Alle diese Faktoren werden innerhalb der proprietären Algorithmen, die jede Suchmaschine in ihren Spider-Bots einsetzt, unterschiedlich gewichtet. Webcrawler unterschiedlicher Suchmaschinen verhalten sich auch unterschiedlich, obwohl das Endziel das gleiche ist: die Inhalte von Webseiten herunterladen und indexieren.

Warum werden Webcrawler „Spider“ genannt?

Das Internet, oder zumindest der Teil davon, auf den die meisten Nutzer zugreifen, wird auch als World Wide Web („weltweites Netz“) bezeichnet – daher das Kürzel „www“ bei den meisten Website-URLs. Es war nur eine logische Konsequenz, Suchmaschinen-Bots als „Spiders“ (Spinnen) zu bezeichnen, denn sie krabbeln überall im Internet herum, so wie echte Spinnen auf Spinnennetzen herumkrabbeln.

Sollten Webcrawler-Bots immer auf Websites zugreifen dürfen?

Das hängt von der Website und von einer Reihe von Faktoren ab. Webcrawler brauchen Serverressourcen, um Inhalte zu indexieren: Sie stellen Anfragen, auf die der Server antworten muss, wie bei einem Nutzer, der eine Website besucht, oder anderen Bots, die auf eine Website zugreifen. Je nach Menge der Inhalte auf jeder Seite oder der Anzahl der Seiten der Website kann es im besten Interesse des Betreibers einer Website sein, die Suchindexierung nicht zu oft zu erlauben, da eine zu starke Indexierung den Server überlasten bzw. die Bandbreitenkosten erhöhen kann oder beides.

Außerdem möchten Entwickler oder Unternehmen unter Umständen nicht, dass einige Webseiten auffindbar sind, außer wenn einem Nutzer bereits ein Link zu der Seite mitgeteilt wurde (ohne eine Paywall oder Anmeldeseite vor die Seite zu stellen). Ein Beispiel dafür ist, wenn eine spezielle Startseite für eine Marketingkampagne erstellt wird, aber das Unternehmen nicht möchte, dass jemand auf die Seite zugreift, der nicht zu der Zielgruppe der Kampagne gehört. Auf diese Weise kann das Unternehmen die Botschaften anpassen oder die Performance der Seite genau messen. In solchen Fällen kann das Unternehmen einen „No Index“-Tag zur Startseite hinzufügen, damit sie nicht in den Suchmaschinenergebnissen auftaucht. Es kann auch einen „Disallow“-Tag (Untersagen) in die Seite oder die Datei robots.txt aufnehmen. Dann durchsuchen Suchmaschinen-Spider sie auf keinen Fall.

Es kann die verschiedensten Gründe dafür geben, dass der Besitzer einer Website nicht möchte, dass Webcrawler-Bots einen Teil oder alle seine Websites durchsuchen. Beispielsweise möchte eine Website, die Nutzern die Möglichkeit zur Suche innerhalb der Website bietet, möglicherweise die Suchergebnisseiten blockieren, da diese den meisten Nutzern nicht dienlich sind. Andere automatisch generierte Seiten, die nur einem oder wenigen bestimmten Nutzern dienlich sind, sollten ebenfalls blockiert werden.

Was ist der Unterschied zwischen Webcrawling und Web Scraping?

Web Scraping, Data Scraping oder Content Scraping bedeutet, dass ein Bot den Inhalt einer Website ohne Erlaubnis herunterlädt, oft mit der Absicht, diesen Inhalt für einen böswilligen Zweck zu verwenden.

Web Scraping ist meist viel zielgerichteter als Webcrawling. Web Scraper suchen möglicherweise nur nach bestimmten Seiten oder bestimmten Websites, während Webcrawler weiteren Links folgen und Seiten fortlaufend crawlen.

Web-Scraper-Bots ignorieren unter Umständen auch die Belastung von Webservern, während Webcrawler, vor allem die von großen Suchmaschinen, die Regeln aus der Datei robots.txt respektieren und ihre Anfragen begrenzen, um den Webserver nicht zu überfordern.

Wie wirken sich Webcrawler auf SEO aus?

SEO steht für Suchmaschinenoptimierung, und bei dieser Disziplin geht es um die Aufbereitung von Inhalten für die Suchindexierung, damit eine Website in den Ergebnissen der Suchmaschinen höher angezeigt wird.

Durchsuchen Spider-Bots eine Website nicht, kann sie nicht indexiert werden und sie wird in den Suchergebnissen nicht angezeigt. Wenn ein Besitzer einer Website daher organischen Traffic aus den Suchergebnissen erhalten möchte, ist es besonders wichtig, dass er Webcrawler-Bots nicht blockiert.

Welche Webcrawler-Bots sind im Internet aktiv?

Die Bots der wichtigsten Suchmaschinen heißen:

  • Googlebot (eigentlich zwei Crawler, Googlebot Desktop und Googlebot Mobile, für Desktop- und mobile Suche)
  • Bing: Bingbot
  • Yandex (russische Suchmaschine): Yandex Bot
  • Baidu (chinesische Suchmaschine): Baidu Spider

Es gibt auch viele weniger verbreitete Webcrawler-Bots, von denen einige nicht zu einer Suchmaschine gehören.

Warum ist es für das Bot-Management wichtig, das Webcrawling zu berücksichtigen?

Schädliche Bots können viel Schaden anrichten, von schlechten Nutzererfahrungen über Serverausfälle bis hin zum Datendiebstahl. Beim Blockieren von schädlichen Bots ist es allerdings wichtig, dass vertrauenswürdige Bots, z. B. Webcrawler, weiterhin auf Websites zugreifen können. Mit Cloudflare Bot-Management können vertrauenswürdige Bots weiterhin auf Websites zugreifen und gleichzeitig den böswilligen Bot-Traffic abwehren. Das Produkt führt eine automatisch aktualisierte Positivliste von vertrauenswürdigen Bots, z. B. Webcrawlern, damit diese nicht blockiert werden.