什么是机器人流量?| 如何阻止机器人流量

机器人流量是指网站的非人类流量。 虽然某些机器人流量有益,但过多的机器人流量破坏性很强。

学习目标

阅读本文后,您将能够:

  • 明确机器人流量的概念。
  • 了解如何分辨机器人流量。
  • 概述恶意机器人所带来的不良后果。
  • 了解如何阻止恶意机器人流量。

相关内容


想要继续学习吗?

接收有关最流行互联网见解的每月总结。

参阅 Cloudflare 的隐私政策,了解我们如何收集和处理您的个人数据。

复制文章链接

Defend against bot attacks like credential stuffing and content scraping with Cloudflare

什么是机器人流量?

机器人流量是指网站或应用程序的非人类流量。机器人流量这个词语通常含有贬义,但实际上机器人流量不一定有益或有害,这主要取决于机器人所要实现的目的。

有些机器人对搜索引擎和数字助手(如 Siri、Alexa)等实用服务而言,必不可少。多数公司欢迎这类机器人访问其网站。

例如用于凭证填充数据抓取,以及发动 DDoS 攻击等目的的其他机器人,则可能是恶意机器人。即使是某些较为良性的“恶意”机器人,如未经授权的 Web 爬网程序,也会造成损害,因为这些机器人会对站点分析造成妨碍,并产生点击欺诈。

据信,全部 Internet 流量中,超过 40% 以上是由机器人流量组成,其中很大一部分为恶意机器人流量。这也是许多组织开始寻求方法管理进入其站点的机器人流量的原因。

如何辨别机器人流量?

Web 工程师可直接查看指向其站点的网络请求,并辨别是否为机器人流量。Google Analytics 或 Heap 等集成式 Web 分析工具也可助力机器人流量检测。

以下分析异常标志着网络流量为机器人流量:

  • 页面访问量异常高:如果站点页面访问量突然毫无预兆地空前暴增,则有可能是机器人在点击浏览该站点。
  • 跳出率异常高:跳出率是指进入站点的单个页面,而后不点击页面任何内容即离开该站点的用户数量。跳出率毫无预兆地上升可能是因为机器人被指向单个页面所致。
  • 会话持续时间过长或过短:会话持续时间或用户在网站停留的时长,应当保持相对稳定。会话持续时间突然增加可能表明机器人正在以异常缓慢的速率浏览该站点。与之相反,会话持续时间突然缩短可能是由于机器人正快速点击页面所致,其点击速率比人类操作快得多。
  • 垃圾转换次数:虚假转换次数剧增,如使用垃圾电子邮件地址创建帐户或者用虚假的姓名和电话号码提交联系人表单,可能是填表机器人或者垃圾邮件机器人活动的结果。
  • 意外位置流量剧增:某一特定区域的用户数量突然猛增,尤其是不可能有很多能够流利说网站本地语言人口的区域,这可能表明是机器人流量。

机器人流量如何对分析造成损害?

如上所述,未经授权的机器人流量会影响分析度量指标,如页面访问量、跳出率、会话持续时间、用户定位以及转换次数。度量指标偏差会给站点所有者带来许多不利影响;对于充斥着机器人活动的站点,很难衡量其性能。尝试通过 A/B 测试以及优化转换率来改善站点性能,也会因机器人造成的统计噪声而受阻。

如何从 Google Analytics 过滤机器人流量?

Google Analytics 提供“排除来自已知机器人和蜘蛛程序的点击”(exclude all hits from known bots and spiders)(蜘蛛程序是指爬取网页的搜索引擎机器人)选项。如能识别机器人流量源,用户也可提供具体 IP 列表,Google Analytics 即会将其忽略。

虽然采取这些措施会阻止某些机器人妨碍分析,但无法阻止所有机器人。此外,大部分恶意机器人目的不只是为了扰乱流量分析,而这些措施除了保存分析数据之外,在进行有害机器人活动防护方面别无他法。

机器人流量如何损害性能?

攻击者发动 DDoS 攻击最常用的方式就是发送大量机器人流量。某些类型的 DDoS 攻击活动期间,有大量攻击流量指向网站,以致源服务器负担过重,站点运行变慢或者合法用户根本无法访问。

机器人流量带来的不利业务影响有哪些?

受恶意机器人流量影响,一些网站即使性能未受影响,也可能蒙受经济损失。依赖于广告推广的站点和销售有限库存商品的站点特别容易遭到攻击。

对于广告服务站点而言,机器人登录站点并点击页面的各种元素,可能触发虚假的广告点击,这就是点击欺诈。虽然这种情况最初可以创造广告营收,但在线广告网络平台在检测机器人点击方面尤为擅长。如果怀疑某一网站正在实施点击欺诈,它们会采取措施,通常是禁止该站点或该站点的所有者访问它们的网络平台。因此,广告服务站点的所有者需时刻留意机器人点击欺诈。

Sites with limited inventory can be targeted by inventory hoarding bots. As the name suggests, these bots go to e-commerce sites and dump tons of merchandise into their shopping carts, making that merchandise unavailable for purchase by legitimate shoppers. In some cases this can also trigger unnecessary restocking of inventory from a supplier or manufacturer. The inventory hoarding bots never make a purchase; they are simply designed to disrupt the availability of inventory.

网站如何管理机器人流量?

阻止或者管理网站机器人流量,第一步是要纳入 robots.txt 文件。这种文件为机器人提供页面爬取说明,可配置为完全防止机器人访问页面或与网页交互。但应注意,只有善意机器人会遵守 robots.txt 文件中的规则;该文件无法防止恶意机器人爬取网站。

有多种工具可用来协助防御机器人流量滥用。速率限制解决方案能够检测并防止源自单一 IP 地址的机器人流量,但这仍会忽视大量恶意机器人流量。除了速率限制以外,网络工程师可以查看站点的流量并识别可疑网络请求,从而提供 IP 地址列表以便 WAF 等过滤工具加以阻止。这一过程会耗费大量人力,而且只能阻止部分恶意机器人流量。

Separate from rate limiting and direct engineer intervention, the easiest and most effective way to stop bad bot traffic is with a bot management solution. A bot management solution can leverage intelligence and use behavioral analysis to stop malicious bots before they ever reach a website. For example, Cloudflare Bot Management uses intelligence from millions of Internet properties and applies machine learning to proactively identify and stop bot abuse. Super Bot Fight Mode, available on Pro and Business plans, offers smaller organizations similar visibility and control over their bot traffic.