Ein Webcrawler oder Spider ist eine Art von Bot, der in der Regel von Suchmaschinen wie Google und Bing genutzt wird. Sie dienen dazu, den Inhalt von Websites im gesamten Internet zu indexieren, damit diese Websites in den Suchmaschinenergebnissen aufgeführt werden können.
Nach Lektüre dieses Artikels können Sie Folgendes:
Ähnliche Inhalte
Bot-Management
Bot-Traffic
Vertrauenswürdige Bots vs. schädliche Bots
Verwaltung vertrauenswürdiger Bots
Spam-Bots
Abonnieren Sie theNET, Cloudflares monatliche Zusammenfassung der beliebtesten Einblicke in das Internet!
Link zum Artikel kopieren
Ein Webcrawler-, Spider- oder Suchmaschinen- Bot lädt Inhalte aus dem gesamten Internet herunter und indexiert sie. So soll ermittelt werden, um was es bei (fast) jeder Webseite im Internet geht, damit die Informationen bei Bedarf abrufbar sind. Suchmaschinen nutzen diese Bots, um relevante Seiten zu finden und in den Suchergebnissen anzuzeigen. Sie werden als „Webcrawler“ bezeichnet, weil Crawling der Fachbegriff für den automatischen Zugriff auf eine Website und die Erfassung von Daten über ein Softwareprogramm ist.
Bei KI-Webcrawlern handelt es sich um eine gesonderte, aber verwandte Art von Crawler-Bots. Sie greifen auf Inhalte im Internet zu, um entweder beim Trainieren von Large Language Models (LLM) zu helfen oder KI-Assistenten dabei zu unterstützen, Nutzer mit Informationen zu versorgen. Viele Suchmaschinenanbieter betreiben auch KI-Crawler.
Die Anwendung eines Suchalgorithmus auf die von Webcrawlern erfassten Daten erlaubt nach Eingabe einer Suchanfrage bei Google oder Bing (oder einer anderen Suchmaschine) die Auflistung von Links zu relevanten Webseiten.
Der Webcrawler-Bot einer Suchmaschine ist mit einer Person vergleichbar, die alle Bücher in einer chaotischen Bibliothek durchgeht und einen Kartenkatalog erstellt, damit künftig jeder Bibliotheksbesucher die benötigten Informationen schnell und leicht findet. Zur thematischen Kategorisierung und Sortierung werden bei jedem Buch der Titel, die Zusammenfassung und Auszüge gelesen, um in Erfahrung zu bringen, worum es darin geht.
Im Gegensatz zu einer Bibliothek besteht das Internet jedoch nicht aus echten Stapeln von Büchern, und deshalb kann man schwer nachvollziehen, ob alle notwendigen Informationen richtig indexiert wurden oder ein riesiger Teil davon übersehen wird. Um alle relevanten Informationen zu finden, die das Internet zu bieten hat, beginnt ein Webcrawler-Bot mit einem bestimmten Satz bekannter Webseiten und folgt dann Hyperlinks von diesen Seiten zu anderen Seiten, folgt Hyperlinks von diesen anderen Seiten zu weiteren Seiten, usw.
Es ist nicht bekannt, wie viel vom öffentlich zugänglichen Internet tatsächlich von Suchmaschinen-Bots durchsucht wird. Einige Quellen gehen davon aus, dass nur 40 bis 70 % des Internets für die Suche indexiert sind – und das sind Milliarden von Webseiten.
KI-Webcrawler erfüllen im Wesentlichen zwei Funktionen:
Die Suchindexierung ist wie die Erstellung eines Kartenkatalogs für das Internet, damit eine Suchmaschine weiß, wo im Internet Informationen abgerufen werden können, wenn eine Person danach sucht. Sie ist auch mit dem Index am Ende eines Buches vergleichbar, der alle Stellen im Buch auflistet, an denen ein bestimmtes Thema oder eine bestimmte Formulierung erwähnt wird.
Die Indexierung konzentriert sich hauptsächlich auf den auf der Seite angezeigten Text und auf die Metadaten* über die Seite, die Nutzer nicht sehen. Die meisten Suchmaschinen nehmen, wenn sie eine Seite indexieren, alle Wörter auf der Seite in den Index auf – außer Wörter wie „ein“, „eine“, „der“, „die“ und „das“ im Falle von Google. Wenn Nutzer nach indexierten Wörtern suchen, durchsucht die Suchmaschine in ihrem Index alle Seiten, auf denen diese Wörter auftauchen, und wählt die relevantesten aus.
*Unter Metadaten versteht man im Kontext der Suchindexierung Daten, die Suchmaschinen sagen, worum es in einer Webseite geht. Auf den Ergebnisseiten der Suchmaschinen werden oft Meta-Titel und Meta-Beschreibung angezeigt, nicht die sichtbaren Inhalte einer Webseite..
Das Internet verändert sich und wächst ständig. Da man nicht genau wissen kann, wie viele Webseiten es insgesamt im Internet gibt, gehen Webcrawler-Bots von einem Ausgangspunkt oder einer Liste bekannter URLs aus. Sie durchsuchen zuerst die Webseiten unter diesen URLs. Während sie diese Webseiten durchsuchen, finden sie Hyperlinks zu anderen URLs und fügen diese zur Liste der Seiten hinzu, die als nächstes durchsucht werden.
Angesichts der großen Anzahl von Webseiten im Internet, die für die Suche indexiert werden könnten, könnte dieser Vorgang fast beliebig lange dauern. Ein Webcrawler folgt jedoch bestimmten Richtlinien, durch die er selektiver vorgeht, zum Beispiel bei der Frage, welche Seiten er durchsuchen soll, in welcher Reihenfolge er diese Seiten durchsuchen soll und wie oft er sie erneut durchsuchen soll, um nach Aktualisierungen von Inhalten zu suchen.
Die relative Bedeutung jeder Webseite: Die meisten Webcrawler durchsuchen nicht das gesamte öffentlich zugängliche Internet und sollen dies auch nicht tun. Sie entscheiden vielmehr, welche Seiten zuerst durchsucht werden sollen, und zwar basierend auf der Anzahl der anderen Seiten, die auf diese Seite verweisen, der Anzahl der Besucher dieser Seite und anderen Faktoren, die darauf hinweisen, dass die Seite wahrscheinlich wichtige Informationen enthält.
Die Überlegung dahinter ist, dass eine Webseite, die von vielen anderen Webseiten erwähnt wird und viele Besucher anlockt, wahrscheinlich qualitativ hochwertige, zuverlässige Informationen enthält, und es daher besonders wichtig ist, dass die jeweilige Suchmaschine sie indexiert – so wie eine Bibliothek dafür sorgt, dass sie viele Exemplare eines Buches hat, das von vielen Personen ausgeliehen wird.
Erneutes Aufrufen von Webseiten: Inhalte im Internet werden ständig aktualisiert, entfernt oder an neue Stellen verschoben. Webcrawler müssen die Seiten regelmäßig erneut besuchen, damit sichergestellt ist, dass die neueste Version des Inhalts indexiert wird.
Regeln aus der Datei robots.txt: Webcrawler entscheiden auch, welche Seiten basierend auf dem robots.txt-Protokoll (auch bekannt als das Robots-Exclusion-Protokoll) durchsucht werden sollen. Bevor sie eine Webseite durchsuchen, überprüfen sie die auf dem Webserver dieser Seite gehostete Datei robots.txt. In der Textdatei robots.txt werden die Regeln für alle Bots festgelegt, die auf die gehostete Website oder Anwendung zugreifen. Diese Regeln definieren, welche Seiten die Bots durchsuchen dürfen und welchen Links sie folgen dürfen. Sehen Sie sich als Beispiel die Datei robots.txt von Cloudflare.com an.
Alle diese Faktoren werden innerhalb der proprietären Algorithmen, die jede Suchmaschine in ihren Spider-Bots einsetzt, unterschiedlich gewichtet. Webcrawler unterschiedlicher Suchmaschinen verhalten sich auch unterschiedlich, obwohl das Endziel das gleiche ist: die Inhalte von Webseiten herunterladen und indexieren.
Das Internet, oder zumindest der Teil davon, auf den die meisten Nutzer zugreifen, wird auch als World Wide Web („weltweites Netz“) bezeichnet – daher das Kürzel „www“ bei den meisten Website-URLs. Es war nur eine logische Konsequenz, Suchmaschinen-Bots als „Spiders“ (Spinnen) zu bezeichnen, denn sie krabbeln überall im Internet herum, so wie echte Spinnen auf Spinnennetzen herumkrabbeln.
Das hängt von der Website und von einer Reihe von Faktoren ab. Webcrawler brauchen Serverressourcen, um Inhalte zu indexieren: Sie stellen Anfragen, auf die der Server antworten muss – genau wie ein Website-Besucher oder andere Bots, die auf eine Website zugreifen. Je nach Menge der Inhalte auf den einzelnen Seiten oder der Zahl der Seiten kann es im Interesse des Website-Betreibers sein, die Suchindexierung nicht zu oft zu erlauben, da eine große Zahl von Indexierungsdurchgängen den Server überlasten und/oder die Bandbreitenkosten in die Höhe treiben kann.
Unter Umständen wollen Entwickler oder Unternehmen, dass manche Webseiten nur auffindbar sind, wenn einem Nutzer bereits ein Link zu der Seite mitgeteilt wurde (ohne der Seite eine Paywall oder eine Anmeldung vorzuschalten). Das kann beispielsweise der Fall sein, wenn für eine Marketingkampagne eine spezielle Landingpage erstellt wurde, das Unternehmen aber nicht möchte, dass Personen darauf zugreifen können, die nicht zur Zielgruppe gehören. So kann das Unternehmen die Botschaften anpassen oder die Performance der Seite genau messen. In solchen Fällen kann die Startseite mit einem „No Index“-Tag versehen werden, damit sie nicht in den Suchergebnissen auftaucht. Es kann auch ein „Disallow“ (Ablehnen)-Tag in der Seite oder in der robots.txt-Datei eingefügt werden. Dann wird sie von Suchmaschinen-Spidern überhaupt nicht durchsucht.
Webadministratoren wollen möglicherweise auch nicht, dass LLM mit ihren Inhalten trainiert werden. Die Inhalte einer Website sind unter Umständen urheberrechtlich geschützt. In manchen Fällen kann das Erfassen von Webinhalten zwecks LLM-Training dem Geschäftsmodell einer Website zuwiderlaufen – zum Beispiel, wenn die Website einzigartige Inhalte hostet und Werbeflächen verkauft. In diesem Fall sollten Administratoren die Aktivität von KI-Crawler-Bots gezielt einschränken, ohne Suchmaschinen-Bots das Crawlen ganz zu verbieten.
Es kann die verschiedensten Gründe dafür geben, dass der Besitzer einer Website nicht möchte, dass Webcrawler-Bots einen Teil oder alle seine Websites durchsuchen. Beispielsweise möchte eine Website, die Nutzern die Möglichkeit zur Suche innerhalb der Website bietet, möglicherweise die Suchergebnisseiten blockieren, da diese den meisten Nutzern nicht dienlich sind. Andere automatisch generierte Seiten, die nur einem oder wenigen bestimmten Nutzern dienlich sind, sollten ebenfalls blockiert werden.
Web Scraping, Data Scraping oder Content Scraping bedeutet, dass ein Bot den Inhalt einer Website ohne Erlaubnis herunterlädt, oft mit der Absicht, diesen Inhalt für einen böswilligen Zweck zu verwenden.
Web Scraping ist meist viel zielgerichteter als Webcrawling. Web Scraper suchen möglicherweise nur nach bestimmten Seiten oder bestimmten Websites, während Webcrawler weiteren Links folgen und Seiten fortlaufend crawlen.
Web-Scraper-Bots ignorieren unter Umständen auch die Belastung von Webservern, während Webcrawler, vor allem die von großen Suchmaschinen, die Regeln aus der Datei robots.txt respektieren und ihre Anfragen begrenzen, um den Webserver nicht zu überfordern.
SEO steht für Suchmaschinenoptimierung, und bei dieser Disziplin geht es um die Aufbereitung von Inhalten für die Suchindexierung, damit eine Website in den Ergebnissen der Suchmaschinen höher angezeigt wird.
Durchsuchen Spider-Bots eine Website nicht, kann sie nicht indexiert werden und sie wird in den Suchergebnissen nicht angezeigt. Wenn ein Besitzer einer Website daher organischen Traffic aus den Suchergebnissen erhalten möchte, ist es besonders wichtig, dass er Webcrawler-Bots nicht blockiert.
Die Bots der wichtigsten Suchmaschinen heißen:
Es gibt auch viele andere Webcrawler-Bots, von denen einige nicht zu einer Suchmaschine gehören.
Dies sind einige der häufigsten KI-Crawler-Bots, die Daten für LLM sammeln:
Die Cloudflare-Liste verifizierter Bots finden Sie hier.
Bösartige Bots können großen Schaden anrichten – von schlechten Nutzererfahrungen über Serverausfälle bis hin zum Datendiebstahl – und sollten deshalb blockiert werden. Es ist allerdings wichtig, dass vertrauenswürdige Bots, z. B. Webcrawler von Suchmaschinen, weiterhin auf Websites zugreifen können. Mit dem Bot-Management von Cloudflare haben gutartige Bots Zugang, während schädlicher Bot-Traffic ferngehalten wird. Das Produkt führt eine automatisch aktualisierte Positivliste vertrauenswürdiger Bots, z. B. Webcrawlern, damit diese nicht blockiert werden. Ein ähnliches Maß an Einblick in ihren Bot-Traffic und Kontrolle darüber können kleinere Firmen mit dem „Super Bot Fight“-Modus erlangen, der im Rahmen der Pro- und Business-Tarife von Cloudflare verfügbar ist. Außerdem erlaubt es Cloudflare Unternehmen, KI-Crawler zu blockieren und gleichzeitig Suchmaschinen-Crawler passieren zu lassen.
Cloudflare Radar bietet Erkenntnisse in Echtzeit sowohl zu Suchmaschinen- als auch zu KI-Crawlern. Die neuesten Radar-Daten dazu finden Sie hier.