什么是机器人管理?| 机器人管理器如何运作

机器人管理包括识别和阻止某些机器人访问网站或者应用程序,同时允许其他机器人访问。

Share facebook icon linkedin icon twitter icon email icon

机器人管理

学习目标

阅读本文后,您将能够:

  • 了解机器人的任务,以及为何有必要对机器人进行管理
  • 了解机器人管理器产品的工作内容
  • 探索应允许某些机器人活动,同时应阻止其他机器人活动的原因

什么是机器人管理?

机器人管理是指阻止不受欢迎或者恶意 Internet 机器人流量,同时仍允许有益机器人访问 Web 属性。机器人管理通过检测机器人活动、辨别有用和不良机器人行为,以及识别有用活动源的方式来实现这一目的。

如果不对机器人进行检测,机器人会给 Web 属性带来各种严重问题,因此机器人管理必不可少。机器人流量过多会给 Web 服务器造成过重的负担,减低向合法用户提供服务的速率或者拒绝向合法用户提供服务(有时表现为 DDoS 攻击)。恶意机器人会从网站抓取或者下载内容,盗取用户凭据,快速传播垃圾邮件内容并实施各种其他网络攻击。

机器人管理器的工作内容是什么?

机器人管理器是指任何管理机器人的软件产品。机器人管理器应能够在阻止某些机器人活动的同时,允许其他机器人访问,而不只是阻止所有非人类流量。例如,如果对所有机器人加以阻止,Google 机器人则无法为页面建立索引,那么页面就无法在 Google 搜索结果中显示,最终导致网站自然流量大大减少。

良好的机器人管理器能够实现以下目标,包括:

  • 辨别机器人和人类访问者
  • 确认机器人信誉
  • 识别机器人原 IP 地址并根据 IP 信誉予以阻止
  • 分析机器人行为
  • 将“善意”机器人加入白名单
  • 通过 Captcha 测试、JavaScript 注入或者其他方法验证潜在机器人
  • 对任何过度使用服务的潜在机器人进行速率限制
  • 拒绝“恶意”机器人访问特定内容或资源
  • 向机器人提供备选内容服务

什么是机器人?

机器人一种在网络上运行的计算机程序。机器人被程序化为自动执行某些动作。机器人执行的任务一般很简单,但重复执行速度却比人类快很多。

例如,Google 利用机器人不断爬取网页并建立内容索引以供搜索。一群人查看 Internet 上海量内容需耗费大量时间,近似天文数字,但 Google 机器人却能够近乎实时地更新 Google 搜索索引。

但也有反面例子,如垃圾邮件发送者使用电子邮件搜集机器人在整个 Internet 上收集电子邮件地址。机器人会爬取网页、查找任何符合电子邮件地址格式的文本(文本 + @ 符号 + 域名)并将该文本保存到数据库当中。当然,人类也可以翻阅网页查找电子邮件地址,但这些电子邮件搜集机器人为自动程序,且只查找符合特定参数的文本,因此与人类相比,这些机器人查找电子邮件地址的速度呈指数级上升。

与人类用户访问 Internet 不同的是,机器人通常不通过 Google Chrome 或者 Mozilla Firefox 等传统 Web 浏览器访问 Internet。机器人并不操作鼠标(或者智能手机)也不点击浏览器中的可视内容,它们只是会提出 HTTP 请求(还有其他活动)的软件程序,通常使用的是所谓的“无界面浏览器”。

机器人的任务是什么?

机器人基本上能够执行任何非创新性的重复任务,即任何可以自动执行的事物。它们能够与网页交互、填写并提交表格、点击链接、扫描(或“爬取”)文本,以及下载内容。机器人能够“观看”视频、发表评论,以及在社交媒体平台上发帖、点赞或者转发文章。部分机器人甚至还能与人类用户进行基础对话,这些机器人被称作“聊天机器人”。

善意机器人与恶意机器人二者有何区别?

令人惊讶的是,众多消息来源估计,约半数的 Internet 流量为机器人流量。正如某些但并非全部软件都是恶意软件一般,有些机器人是恶意的,而有些则是“善意”的。

任何滥用网上产品或服务的机器人都被认为是“恶意”的。 恶意机器人包括公然存有恶意(如试图入侵用户帐户)的机器人,还有以更加温和的方式滥用资源(如买光活动网站上的所有门票)的机器人。

执行所需或有益服务的机器人则被视为“善意”机器人。 客户服务聊天机器人、搜索引擎爬网程序和性能监测机器人都是善意机器人的示例。善意机器人通常注意并遵守网站上 robots.txt 文件中所述的规则。

什么是 robots.txt 文件?

robots.txt 是 Web 服务器上的一种文件,其中针对访问该服务器上各属性的机器人设定了相应规则。但该文件本身不执行这些规则。本质上,任何编写机器人程序的人都应遵守服从制度,并确保自己的机器人在访问网站之前先查阅该网站的 robots.txt 文件。当然,恶意机器人通常不遵守这一制度,因此需要进行机器人管理。

机器人管理如何运作?

机器人管理器可使用 JavaScript 质询机制(其确定是否正在使用传统的 Web 浏览器)或者 Captcha 质询机制来分辨机器人。也可通过行为分析确定哪些用户是人类,哪些是机器人,这意味着将某一用户的行为与过往用户的标准行为进行比对。机器人管理器必须有大量优质的行为数据供查验使用,以便实施后者行为。

如果机器人被确定为恶意机器人,该机器人将被重定向到不同的页面或被完全阻止访问某项 Web 资源。

善意机器人则可添加至白名单或者允许的机器人列表(与黑名单相对)。机器人管理器还可通过进一步的行为分析来分辨善意机器人和恶意机器人。

另一种机器人管理方法是利用 robots.txt 文件设置蜜罐。蜜罐是针对不良行为者设置的虚假目标,一旦访问该目标,就能暴露不良行为者的恶意企图。就机器人而言,蜜罐可以是 robots.txt 文件禁止机器人访问的站点上的网页。善意机器人会阅读 robots.txt 文件并绕开该网页,而某些恶意机器人则会爬取该网页。通过跟踪访问蜜罐的机器人的 IP 地址,可辨别出恶意机器人并加以阻止。

机器人管理能够防护哪些类型的机器人攻击?

机器人管理解决方案有助于阻止多类攻击:

以下其他机器人活动不总是被视为“恶意”活动,但无论如何,机器人管理器应能够针对这些活动采取防护措施:

  • 库存囤积
  • 在社交论坛或者平台上自动发帖
  • 购物车填充

Cloudflare 如何管理机器人?

Cloudflare 的独有能力是从每天流经其网络的数十亿个请求中收集数据。Cloudflare 能够利用这些数据,结合机器学习和行为分析,识别可能存在的机器人活动,且能够提供创建善意机器人有效白名单或者恶意机器人黑名单所需的必要数据。Cloudflare 还拥有强大的 IP 信誉数据库。了解有关 Cloudflare 机器人管理的更多信息。