So verwalten Sie vertrauenswürdige Bots | Vertrauenswürdige Bots vs. schädliche Bots

Nicht nur schädliche Bots erfordern Maßnahmen. Eine gute Bot-Management-Strategie vermeidet es, vertrauenswürdige Bots zu blockieren, und wehrt gleichzeitig schädliche ab.

Share facebook icon linkedin icon twitter icon email icon

Verwaltung vertrauenswürdiger Bots

Lernziele

Nach Lektüre dieses Artikels können Sie Folgendes:

  • Sie kennen den Unterschied zwischen vertrauenswürdigen und schädlichen Bots
  • Sie verstehen, wodurch ein vertrauenswürdiger Bot „vertrauenswürdig“ ist und warum vertrauenswürdige Bots in der Lage sein müssen, auf Websites zuzugreifen
  • Sie kennen effektive Strategien um vertrauenswürdige und schädliche Bots zu verwalten

Was sind vertrauenswürdige Bots?

Ein Bot ist ein Computerprogramm, das Interaktionen mit Websites über das Internet automatisiert. Ein „vertrauenswürdiger“ Bot ist jeder Bot, der nützliche oder hilfreiche Aufgaben ausführt, die die Erfahrung eines Benutzers im Internet nicht beeinträchtigen. Da vertrauenswürdige Bots ähnliche Eigenschaften wie böswillige Bots aufweisen können, besteht die Herausforderung bei der Gestaltung einer Bot-Management-Strategie darin, sicherzustellen, dass vertrauenswürdige Bots nicht blockiert werden.

Es gibt viele Arten von vertrauenswürdigen Bots, die jeweils für unterschiedliche Aufgaben entwickelt wurden. Hier einige Beispiele:

  • Suchmaschinen-Bots, auch als Webcrawler oder Spider bezeichnet: Diese Bots „crawlen“ bzw. überprüfen Inhalte auf fast jeder Website im Internet und indexieren diese Inhalte dann, damit sie in den Ergebnissen für relevante Suchanfragen von Benutzern angezeigt werden können. Sie werden von Suchmaschinen wie Google, Bing oder Yandex betrieben.
  • Copyright-Bots: Bots, die Plattformen oder Websites nach Inhalten durchsuchen, die möglicherweise gegen das Urheberrecht verstoßen. Diese Bots können von jeder Person oder Firma betrieben werden, die urheberrechtlich geschütztes Material besitzt. Copyright-Bots können nach kopiertem Text, Musik, Bildern und sogar Videos suchen.
  • Site-Überwachungs-Bots: Diese Bots überwachen Website-Metriken – z. B. die Überwachung auf Backlinks oder Systemausfälle – und können Benutzer bei größeren Änderungen oder Ausfallzeiten warnen. Beispielsweise betreibt Cloudflare einen Crawler-Bot namens Always Online, der das Cloudflare-Netzwerk anweist, eine zwischengespeicherte Version einer Webseite bereitzustellen, wenn der Ursprungsserver nicht verfügbar ist.
  • Kommerzielle Bots: Bots, die von kommerziellen Unternehmen betrieben werden, die das Internet nach Informationen durchsuchen. Diese Bots können von Marktforschungsunternehmen betrieben werden, die Nachrichtenberichte oder Kundenbewertungen überwachen, von Werbenetzwerken, die die Stellen optimieren, an denen sie Anzeigen schalten, oder von SEO-Agenturen, die die Websites von Kunden crawlen.
  • Feed-Bots: Diese Bots durchforsten das Internet auf der Suche nach nachrichtenwürdigen Inhalten, die dem News-Feed einer Plattform hinzugefügt werden können. Content-Aggregator-Sites oder Social-Media-Netzwerke können derartige Bots betreiben.
  • Chatbots: Chatbots imitieren menschliche Konversationen, indem sie Benutzern mit vorprogrammierten Antworten antworten. Einige Chatbots sind komplex genug, um lange Gespräche zu führen.
  • Persönlicher-Assistent-Bots wie Siri oder Alexa: Obwohl diese Programme viel weiter fortgeschritten sind als die typischen Bots, sind sie dennoch Bots: Computerprogramme, die im Internet nach Daten suchen.

Vertrauenswürdige Bots vs. schädliche Bots

Websites müssen sicherstellen, dass sie diese Arten von Bots nicht blockieren, wenn sie versuchen, böswilligen Bot-Traffic herauszufiltern. Es ist besonders wichtig, dass die Webcrawler-Bots von Suchmaschinen nicht blockiert werden, da ohne sie eine Website nicht in den Suchergebnissen angezeigt werden kann.

Schädliche Bots können Daten stehlen, in Benutzerkonten eindringen, Datenmüll über Online-Formulare senden und andere böswillige Aktivitäten ausführen. Zu den Arten von schlechten Bots gehören Credential Stuffing-Bots, Content Scraping-Bots, Spam-Bots und Klickbetrug-Bots.

Was ist robots.txt?

Das Verwalten vertrauenswürdiger Bots beginnt mit der korrekten Einrichtung von Regeln in der robots.txt-Datei einer Website. Eine robots.txt-Datei ist eine Textdatei, die sich auf einem Webserver befindet und die Regeln für alle Bots angibt, die auf die gehostete Website oder Anwendung zugreifen. Diese Regeln legen fest, welche Seiten die Bots durchsuchen können und welche nicht, welchen Links sie folgen sollen und welchen nicht sowie welche anderen Anforderungen an das Verhalten der Bots gestellt werden.

Vertrauenswürdige Bots folgen diesen Regeln. Wenn ein Website-Besitzer beispielsweise nicht möchte, dass eine bestimmte Seite seiner Website in den Google-Suchergebnissen angezeigt wird, kann er eine Regel in die Datei robots.txt schreiben, und die Google Webcrawler-Bots indexieren diese Seite nicht. Obwohl die robots.txt-Datei die Einhaltung dieser Regeln nicht erzwingen kann, sind vertrauenswürdige Bots so programmiert, dass sie nach der Datei suchen und die Regeln befolgen, bevor sie etwas anderes tun.

Schädliche Bots hingegen ignorieren häufig die robots.txt-Datei oder sie lesen sie, um zu erfahren, von welchen Inhalten eine Website Bots fernhalten möchte, um dann genau auf diese Inhalte zuzugreifen. Daher erfordert das Bot-Management einen aktiveren Ansatz, als einfach nur Regeln für das Bot-Verhalten in der Datei robots.txt festzulegen.

Was ist eine Whitelist?

Stellen Sie sich eine Whitelist als eine Art Gästeliste für eine Veranstaltung vor: Wenn jemand, der nicht auf der Gästeliste steht, versucht, an der Veranstaltung teilzunehmen, hindert das Sicherheitspersonal ihn daran. Jeder, der auf der Liste steht, kann unbehindert an der Veranstaltung teilnehmen. Ein solches Vorgehen ist notwendig, weil sich ungebetene Gäste möglicherweise schlecht benehmen und die Party für alle anderen ruinieren.

Beim Bot-Management funktionieren Whitelists im Grunde genommen auf dieselbe Weise. Eine Whitelist ist eine Liste von Bots, die auf eine Website zugreifen dürfen. (Eine Whitelist ist das Gegenteil einer Blacklist, einer schwarzen Liste; daher der Name.) In der Regel funktioniert dies über einen sogenannten „User Agent“, die IP-Adresse des Bots oder eine Kombination aus beiden. Ein User Agent ist eine Textzeichenfolge, die den Typ des Benutzers (oder Bots) gegenüber einem Webserver identifiziert.

Durch Führen einer Liste von erlaubten vertrauenswürdigen Bot-User Agents, wie z. B. solchen, die zu Suchmaschinen gehören, und das anschließende Blockieren von Bots, die nicht auf der Liste stehen, kann ein Webserver den Zugriff für vertrauenswürdige Bots sicherstellen.

Webserver können auch eine Blacklist mit bekannten schädlichen Bots führen.

Was ist eine Blacklist?

Eine Blacklist („schwarze Liste“) ist im Kontext von Netzwerken eine Liste von IP-Adressen, User Agents oder anderen Indikatoren der Online-Identität, die nicht auf einen Server, ein Netzwerk oder eine Website zugreifen dürfen. Dies ist ein etwas anderer Ansatz als die Verwendung einer Whitelist: Eine auf einer Blacklist basierende Bot-Management-Strategie blockiert diese spezifischen Bots und lässt alle anderen Bots durch, während eine Whitelist-Strategie nur bestimmte Bots durchlässt und alle anderen blockiert.

Reichen Whitelists aus, um vertrauenswürdige Bots zuzulassen und schädliche Bots fernzuhalten?

Es ist möglich, dass ein schädlicher Bot seine User-Agent-Zeichenfolge so fälscht, dass er zumindest anfangs wie ein vertrauenswürdiger Bot aussieht – so wie ein Dieb einen gefälschten Ausweis verwenden könnte, um vorzutäuschen, er stünde auf der Gästeliste, und sich in eine Veranstaltung einzuschleichen.

Daher müssen Whitelists vertrauenswürdiger Bots mit anderen Ansätzen zur Erkennung von Spoofing kombiniert werden, wie z. B. der Verhaltensanalyse oder dem maschinellen Lernen. Dies hilft dabei, zusätzlich zum einfachen Zulassen bekannter vertrauenswürdiger Bots sowohl schädliche als auch unbekannte vertrauenswürdige Bots proaktiv zu identifizieren.

Was macht eine Bot-Manager-Lösung?

Ein Bot-Manager-Produkt ermöglicht vertrauenswürdigen Bots den Zugriff auf eine Website und blockiert gleichzeitig schädliche Bots. Cloudflare Bot-Management nutzt maschinelles Lernen und Verhaltensanalysen des Traffics im gesamten Netzwerk, um schädliche Bots zu erkennen, während vertrauenswürdige Bots automatisch und kontinuierlich auf eine Whitelist gesetzt werden.