什么是机器人管理?| 机器人管理器如何运作

机器人管理包括识别和阻止某些机器人访问网站或者应用程序,同时允许其他机器人访问。

Share facebook icon linkedin icon twitter icon email icon

机器人管理

学习目标

阅读本文后,您将能够:

  • 了解机器人的任务,以及为何有必要对机器人进行管理
  • 了解机器人管理器产品的工作内容
  • 探索应允许某些机器人活动,同时应阻止其他机器人活动的原因

什么是机器人管理?

机器人管理是指阻止有害或恶意的互联网机器人流量,同时仍然允许良性的机器人访问Web属性。机器人管理通过检测机器人活动来实现这一目标,区分有需要和不想要的机器人行为以及识别不想要的活动来源。

机器人管理是必要的,因为如果不加以控制,机器人可能会导致Web属性出现大量问题。过多的机器人流量会给网页服务器带来沉重的负担,从而减慢或拒绝为合法用户提供服务(有时采取DDoS攻击的形式)。恶意机器人可以从网站上抓取或下载内容,窃取用户凭据,迅速传播垃圾邮内容以及执行各种其他类型的网络攻击。

机器人管理的工作内容是什么?

机器人管理器是任何管理机器人的软件产品。机器人管理程序应该能够阻止某些机器人并允许其他机器人通过,而不是简单地阻止所有非人为流量。例如,如果所有机器人都被阻止并且谷歌的机器人无法为页面编制索引,则该页面将不会显示在谷歌搜索结果中,从而大大减少了网站的自然流量。

一个好的机器人管理程序可以实现以下目标:

  • 识别机器人与访客之间的差异
  • 识别机器人的信誉
  • 识别机器人来源IP地址并根据IP信誉
  • 进行阻拦
  • 分析机器人行为
  • 将"良性“机器人添加到白名单
  • 通过CAPTCHA测试、JavaScript注入或其他方法挑战潜在的机器人
  • 限制任何可能过度使用服务的机器人的速率
  • 拒绝"恶意”机器人对某些内容或资源的访问
  • 为机器人提供替代内容

什么是机器人?

机器人是在网络上运行的计算机程序。机器人被编程为自动执行某些操作。通常,机器人执行的任务相当简单,但是机器人可以一次又一次地以比人类更快的速度完成任务。

例如,谷歌使用机器人不断抓取网页并将内容编入索引以进行搜索。一个人的团队需要花费天文数字的时间才能查看整个互联网上散布的内容,但是谷歌的机器人能够使谷歌的搜索索引保持最新状态。

作为负面示例,垃圾邮件发送者使用电子邮件收集机器人从互联网上收集电子邮件地址。机器人程序会爬虫网页,查找遵循电子邮件地址格式(文本+ @符号+域)的所有文本,然后将该文本保存到数据库中。自然,人们可以在网页上查找电子邮件地址,但是由于这些电子邮件收集机器人是自动的,并且仅查找适合某些参数的文本,因此查找电子邮件地址的速度成倍增长。

与人类用户访问互联网时不同,机器人通常不会通过传统的网页浏览器(例如Google Chrome或Mozilla Firefox)访问互联网。机器人程序不是操作鼠标(或智能手机)并单击浏览器中的可视内容,而是仅发出HTTP请求(以及其他活动)的软件程序,通常使用"无头浏览器"。

机器人能做什么?

机器人基本上可以执行任何重复、非创造性的任务–可以自动化任何事情。他们可以与网页进行交互、填写和提交表单,单击链接,扫描(或"抓取" )文本以及下载内容。机器人可以"观看"视频,发表评论并在社交媒体平台上发贴,转发或转发。一些机器人甚至可以与人类用户进行基本对话–这些机器人被称为聊天机器人。

良性机器人和恶意机器人有什么区别?

令人惊讶的是,许多来源估计,互联网所有流量中大约有一半是机器人流量。就像某些(但不是全部)软件是恶意软件一样,某些机器人是恶意机器人,而有些是"良性的"。

任何滥用在线产品或服务的机器人均被视为"恶意“。恶意机器人的范围很广,从公然恶意的机器人(例如试图闯入用户帐户的机器人)到轻度滥用资源的形式(例如在活动网站上购买门票的机器人)。

执行所需要或有用服务的机器人可被视为"良性的”。客服聊天机器人、搜索引擎爬网程序和性能监视机器人都是优秀机器人的示例。好的机器人通常会寻找并遵守网站robots.txt文件中概述的规则。

什么是robots.txt文件?

Robots.txt是网页服务器上的文件,概述了机器人访问该服务器属性的规则。但是,文件本身不执行这些规则。从本质上讲,对机器人进行编程的任何人都应遵守荣誉制度,并确保其机器人在访问网站之前检查网站的robots.txt文件。当然,恶意机器人通常不遵循此系统,因此需要机器人管理。

机器人管理如何工作?

为了识别机器人,机器人管理者可以使用JavaScript质询(确定是否使用传统的网页浏览器)或CAPTCHA质询。他们还可以通过行为分析(即通过将用户的行为与过往用户的标准行为进行比较)来确定哪些用户是人类用户,哪些是机器人。要检查到后者,机器人管理者必须收集大量的质量行为数据进行比对。

如果确定某个机器人是恶意的,则可以将其重定向到其他页面,或者完全阻止其访问网页资源。

良性的机器人则可以添加到白名单,或允许的机器人列表(与黑名单相反)。机器人管理程序还可以通过进一步的行为分析来区分良性和恶意机器人。

另一种机器人管理方法是使用robots.txt文件设置蜜罐。蜜罐是针对不良机器人的虚假目标,一旦被访问,就会将暴露不良机器人为恶意对象。对于机器人,蜜罐可能是robots.txt文件禁止机器人访问的网站上的网页。好的机器人会读取robots.txt文件,并避开该网页;一些不良的漫游器会抓取该网页。通过跟踪访问蜜罐的机器人的IP地址,可以识别并阻止不良的机器人。

机器人管理可缓解哪些类型的机器人攻击?

机器人管理解决方案可以帮助阻止各种类型的攻击:

下面这些其他机器人活动并不总是被认为是"恶意的”,但机器人管理器仍然能够防护它们:

  • 库存囤积
  • 在社交论坛或平台上的自动发布
  • 购物车填充

Cloudflare如何管理机器人?

Cloudflare具有独特的能力,可以从每天流过其网络的数十亿个请求中收集数据。有了这些数据,Cloudflare能够通过机器学习和行为分析来识别可能的机器人活动,并可以提供为创建有效的良性机器人白名单或恶意机器人黑名单所需的数据。 Cloudflare还具有广泛的IP信誉数据库。 了解有关Cloudflare 机器人管理的更多信息。