机器人流量是指网站的非人类流量。 虽然某些机器人流量有益,但过多的机器人流量破坏性很强。
阅读本文后,您将能够:
复制文章链接
机器人流量是指网站或应用程序的非人类流量。机器人流量这个词语通常含有贬义,但实际上机器人流量不一定有益或有害,这主要取决于机器人所要实现的目的。
有些机器人对搜索引擎和数字助手(如 Siri、Alexa)等实用服务而言,必不可少。多数公司欢迎这类机器人访问其网站。
例如用于凭证填充、数据抓取,以及发动 DDoS 攻击等目的的其他机器人,则可能是恶意机器人。即使是某些较为良性的“恶意”机器人,如未经授权的 Web 爬网程序,也会造成损害,因为这些机器人会对站点分析造成妨碍,并产生点击欺诈。
据信,全部 Internet 流量中,超过 40% 以上是由机器人流量组成,其中很大一部分为恶意机器人流量。这也是许多组织开始寻求方法管理进入其站点的机器人流量的原因。
Web 工程师可直接查看指向其站点的网络请求,并辨别是否为机器人流量。Google Analytics 或 Heap 等集成式 Web 分析工具也可助力机器人流量检测。
以下分析异常标志着网络流量为机器人流量:
如上所述,未经授权的机器人流量会影响分析度量指标,如页面访问量、跳出率、会话持续时间、用户定位以及转换次数。度量指标偏差会给站点所有者带来许多不利影响;对于充斥着机器人活动的站点,很难衡量其性能。尝试通过 A/B 测试以及优化转换率来改善站点性能,也会因机器人造成的统计噪声而受阻。
Google Analytics 提供“排除来自已知机器人和蜘蛛程序的点击”(exclude all hits from known bots and spiders)(蜘蛛程序是指爬取网页的搜索引擎机器人)选项。如能识别机器人流量源,用户也可提供具体 IP 列表,Google Analytics 即会将其忽略。
虽然采取这些措施会阻止某些机器人妨碍分析,但无法阻止所有机器人。此外,大部分恶意机器人目的不只是为了扰乱流量分析,而这些措施除了保存分析数据之外,在进行有害机器人活动防护方面别无他法。
攻击者发动 DDoS 攻击最常用的方式就是发送大量机器人流量。某些类型的 DDoS 攻击活动期间,有大量攻击流量指向网站,以致源服务器负担过重,站点运行变慢或者合法用户根本无法访问。
受恶意机器人流量影响,一些网站即使性能未受影响,也可能蒙受经济损失。依赖于广告推广的站点和销售有限库存商品的站点特别容易遭到攻击。
对于广告服务站点而言,机器人登录站点并点击页面的各种元素,可能触发虚假的广告点击,这就是点击欺诈。虽然这种情况最初可以创造广告营收,但在线广告网络平台在检测机器人点击方面尤为擅长。如果怀疑某一网站正在实施点击欺诈,它们会采取措施,通常是禁止该站点或该站点的所有者访问它们的网络平台。因此,广告服务站点的所有者需时刻留意机器人点击欺诈。
Sites with limited inventory can be targeted by inventory hoarding bots. As the name suggests, these bots go to e-commerce sites and dump tons of merchandise into their shopping carts, making that merchandise unavailable for purchase by legitimate shoppers. In some cases this can also trigger unnecessary restocking of inventory from a supplier or manufacturer. The inventory hoarding bots never make a purchase; they are simply designed to disrupt the availability of inventory.
阻止或者管理网站机器人流量,第一步是要纳入 robots.txt 文件。这种文件为机器人提供页面爬取说明,可配置为完全防止机器人访问页面或与网页交互。但应注意,只有善意机器人会遵守 robots.txt 文件中的规则;该文件无法防止恶意机器人爬取网站。
有多种工具可用来协助防御机器人流量滥用。速率限制解决方案能够检测并防止源自单一 IP 地址的机器人流量,但这仍会忽视大量恶意机器人流量。除了速率限制以外,网络工程师可以查看站点的流量并识别可疑网络请求,从而提供 IP 地址列表以便 WAF 等过滤工具加以阻止。这一过程会耗费大量人力,而且只能阻止部分恶意机器人流量。
Separate from rate limiting and direct engineer intervention, the easiest and most effective way to stop bad bot traffic is with a bot management solution. A bot management solution can leverage intelligence and use behavioral analysis to stop malicious bots before they ever reach a website. For example, Cloudflare Bot Management uses intelligence from millions of Internet properties and applies machine learning to proactively identify and stop bot abuse. Super Bot Fight Mode, available on Pro and Business plans, offers smaller organizations similar visibility and control over their bot traffic.