So verwalten Sie vertrauenswürdige Bots | Vertrauenswürdige Bots vs. schädliche Bots

Nicht nur schädliche Bots erfordern Maßnahmen. Eine gute Bot-Management-Strategie vermeidet es, vertrauenswürdige Bots zu blockieren, und wehrt gleichzeitig schädliche ab.

Lernziele

Nach Lektüre dieses Artikels können Sie Folgendes:

  • Sie kennen den Unterschied zwischen vertrauenswürdigen und schädlichen Bots
  • Sie verstehen, wodurch ein vertrauenswürdiger Bot „vertrauenswürdig“ ist und warum vertrauenswürdige Bots in der Lage sein müssen, auf Websites zuzugreifen
  • Sie kennen effektive Strategien um vertrauenswürdige und schädliche Bots zu verwalten

Ähnliche Inhalte


Möchten Sie noch mehr erfahren?

Abonnieren Sie theNET, Cloudflares monatliche Zusammenfassung der beliebtesten Einblicke in das Internet!

Lesen Sie die Cloudflare Datenschutzrichtlinie, um zu erfahren, wie wir Ihre persönlichen Daten sammeln und verarbeiten.

Link zum Artikel kopieren

Was sind vertrauenswürdige Bots?

Gute Bots – Chatbot, Überwachungs-Bot, Suchmaschinen-Bot

Ein Bot ist ein Computerprogramm, das Interaktionen mit Websites über das Internet automatisiert. Ein „vertrauenswürdiger“ Bot ist jeder Bot, der nützliche oder hilfreiche Aufgaben ausführt, die die Erfahrung eines Benutzers im Internet nicht beeinträchtigen. Da vertrauenswürdige Bots ähnliche Eigenschaften wie böswillige Bots aufweisen können, besteht die Herausforderung bei der Gestaltung einer Bot-Management-Strategie darin, sicherzustellen, dass vertrauenswürdige Bots nicht blockiert werden.

Es gibt viele Arten von vertrauenswürdigen Bots, die jeweils für unterschiedliche Aufgaben entwickelt wurden. Hier einige Beispiele:

  • Suchmaschinen-Bots: Auch als Webcrawler oder Spider bezeichnet: Diese Bots „crawlen“ bzw. überprüfen Inhalte auf fast jeder Website im Internet und indexieren diese Inhalte dann, damit sie in den Ergebnissen für relevante Suchanfragen von Benutzern angezeigt werden können. Sie werden von Suchmaschinen wie Google, Bing oder Yandex betrieben.
  • Copyright-Bots: Bots, die Plattformen oder Websites nach Inhalten durchsuchen, die möglicherweise gegen das Urheberrecht verstoßen. Diese Bots können von jeder Person oder Firma betrieben werden, die urheberrechtlich geschütztes Material besitzt. Copyright-Bots können nach kopiertem Text, Musik, Bildern und sogar Videos suchen.
  • Site-Überwachungs-Bots: Diese Bots überwachen Website-Metriken – z. B. die Überwachung auf Backlinks oder Systemausfälle – und können Benutzer bei größeren Änderungen oder Ausfallzeiten warnen. Beispielsweise betreibt Cloudflare einen Crawler-Bot namens Always Online, der das Cloudflare-Netzwerk anweist, eine zwischengespeicherte Version einer Webseite bereitzustellen, wenn der Ursprungsserver nicht verfügbar ist.
  • Kommerzielle Bots: Bots, die von kommerziellen Unternehmen betrieben werden, die das Internet nach Informationen durchsuchen. Diese Bots können von Marktforschungsunternehmen betrieben werden, die Nachrichtenberichte oder Kundenbewertungen überwachen, von Werbenetzwerken, die die Stellen optimieren, an denen sie Anzeigen schalten, oder von SEO-Agenturen, die die Websites von Kunden crawlen.
  • Feed-Bots: Diese Bots durchforsten das Internet auf der Suche nach nachrichtenwürdigen Inhalten, die dem News-Feed einer Plattform hinzugefügt werden können. Content-Aggregator-Sites oder Social-Media-Netzwerke können derartige Bots betreiben.
  • Chatbots: Chatbots imitieren menschliche Konversationen, indem sie Benutzern mit vorprogrammierten Antworten antworten. Einige Chatbots sind komplex genug, um lange Gespräche zu führen.
  • Persönlicher-Assistent-Bots wie Siri oder Alexa: Obwohl diese Programme viel weiter fortgeschritten sind als die typischen Bots, sind sie dennoch Bots: Computerprogramme, die im Internet nach Daten suchen.

Vertrauenswürdige Bots vs. schädliche Bots

Websites müssen sicherstellen, dass sie diese Arten von Bots nicht blockieren, wenn sie versuchen, böswilligen Bot-Traffic herauszufiltern. Es ist besonders wichtig, dass die Webcrawler-Bots von Suchmaschinen nicht blockiert werden, da ohne sie eine Website nicht in den Suchergebnissen angezeigt werden kann.

Schädliche Bots können Daten stehlen, in Benutzerkonten eindringen, Datenmüll über Online-Formulare senden und andere böswillige Aktivitäten ausführen. Zu den Arten von schlechten Bots gehören Credential Stuffing-Bots, Content Scraping-Bots, Spam-Bots und Klickbetrug-Bots.

Was ist robots.txt?

Das Verwalten vertrauenswürdiger Bots beginnt mit der korrekten Einrichtung von Regeln in der robots.txt-Datei einer Website. Eine robots.txt-Datei ist eine Textdatei, die sich auf einem Webserver befindet und die Regeln für alle Bots angibt, die auf die gehostete Website oder Anwendung zugreifen. Diese Regeln legen fest, welche Seiten die Bots durchsuchen können und welche nicht, welchen Links sie folgen sollen und welchen nicht sowie welche anderen Anforderungen an das Verhalten der Bots gestellt werden.

Vertrauenswürdige Bots folgen diesen Regeln. Wenn ein Website-Besitzer beispielsweise nicht möchte, dass eine bestimmte Seite seiner Website in den Google-Suchergebnissen angezeigt wird, kann er eine Regel in die Datei robots.txt schreiben, und die Google Webcrawler-Bots indexieren diese Seite nicht. Obwohl die robots.txt-Datei die Einhaltung dieser Regeln nicht erzwingen kann, sind vertrauenswürdige Bots so programmiert, dass sie nach der Datei suchen und die Regeln befolgen, bevor sie etwas anderes tun.

Schädliche Bots hingegen ignorieren häufig die robots.txt-Datei oder sie lesen sie, um zu erfahren, von welchen Inhalten eine Website Bots fernhalten möchte, um dann genau auf diese Inhalte zuzugreifen. Daher erfordert das Bot-Management einen aktiveren Ansatz, als einfach nur Regeln für das Bot-Verhalten in der Datei robots.txt festzulegen.

Was ist eine Genehmigungsliste?

Stellen Sie sich eine Genehmigungsliste als eine Art Gästeliste für eine Veranstaltung vor: Wenn jemand, der nicht auf der Gästeliste steht, versucht, an der Veranstaltung teilzunehmen, hindert das Sicherheitspersonal ihn daran. Jeder, der auf der Liste steht, kann unbehindert an der Veranstaltung teilnehmen. Ein solches Vorgehen ist notwendig, weil sich ungebetene Gäste möglicherweise schlecht benehmen und die Party für alle anderen ruinieren.

Beim Bot-Management funktionieren Genehmigungsliste im Grunde genommen auf dieselbe Weise. Eine Genehmigungsliste ist eine Liste von Bots, die auf eine Website zugreifen dürfen. In der Regel funktioniert dies über einen sogenannten „User Agent“, die IP-Adresse des Bots oder eine Kombination aus beiden. Ein User Agent ist eine Textzeichenfolge, die den Typ des Benutzers (oder Bots) gegenüber einem Webserver identifiziert.

Durch Führen einer Liste von erlaubten vertrauenswürdigen Bot-User Agents, wie z. B. solchen, die zu Suchmaschinen gehören, und das anschließende Blockieren von Bots, die nicht auf der Liste stehen, kann ein Webserver den Zugriff für vertrauenswürdige Bots sicherstellen.

Webserver können auch eine Blockierliste mit bekannten schädlichen Bots führen.

Was ist eine Blockierliste?

Eine Blockierliste ist im Kontext von Netzwerken eine Liste von IP-Adressen, User Agents oder anderen Indikatoren der Online-Identität, die nicht auf einen Server, ein Netzwerk oder eine Website zugreifen dürfen. Dies ist ein etwas anderer Ansatz als die Verwendung einer Genehmigungsliste: Eine auf einer Blockierliste basierende Bot-Management-Strategie blockiert diese spezifischen Bots und lässt alle anderen Bots durch, während eine Genehmigungsliste-Strategie nur bestimmte Bots durchlässt und alle anderen blockiert.

Reichen Genehmigungslisten aus, um vertrauenswürdige Bots zuzulassen und schädliche Bots fernzuhalten?

Es ist möglich, dass ein schädlicher Bot seine User-Agent-Zeichenfolge so fälscht, dass er zumindest anfangs wie ein vertrauenswürdiger Bot aussieht – so wie ein Dieb einen gefälschten Ausweis verwenden könnte, um vorzutäuschen, er stünde auf der Gästeliste, und sich in eine Veranstaltung einzuschleichen.

Daher müssen Genehmigungslisten vertrauenswürdiger Bots mit anderen Ansätzen zur Erkennung von Spoofing kombiniert werden, wie z. B. der Verhaltensanalyse oder dem maschinellen Lernen. Dies hilft dabei, zusätzlich zum einfachen Genehmigen bekannter vertrauenswürdiger Bots sowohl schädliche als auch unbekannte vertrauenswürdige Bots proaktiv zu identifizieren.

Was macht eine Bot-Manager-Lösung?

Ein Bot-Manager-Produkt ermöglicht vertrauenswürdigen Bots den Zugriff auf eine Website und blockiert gleichzeitig schädliche Bots. Cloudflare Bot-Management nutzt maschinelles Lernen und Verhaltensanalysen des Traffics im gesamten Netzwerk, um schädliche Bots zu erkennen, während vertrauenswürdige Bots automatisch und kontinuierlich auf eine Genehmigungsliste gesetzt werden. Eine ähnliche Funktionalität ist für kleinere Unternehmen mit dem Super Bot Fight Mode verfügbar, der jetzt in den Cloudflare Pro- und Business-Tarifen enthalten ist.