攻击者能够利用 Web 抓取工具,以比预期更快的速度访问数据。 这可能导致数据被用于未经授权的用途。
阅读本文后,您将能够:
复制文章链接
一般来讲,数据抓取是指某个计算机程序用于从其他程序生成的输出中提取数据的一种技术。数据抓取通常表现为 Web 抓取,即:使用应用从网站提取有价值的信息的流程。
抓取机器人可以被设计用于多种用途,例如:
爬取是指 Google 等大型搜索引擎在发送其机器人爬网程序(如 Googlebot)到网络中以建立互联网内容索引时所进行的过程。另一方面,抓取则是明确从特定网站提取数据的一种典型架构。
以下是抓取机器人和 Web 爬网程序机器人在行为实践方面的 3 个差异:
诚实/透明 | 高级策略 | 遵守 robots.txt 文件规则 | |
抓取机器人 | 伪装成 Web 浏览器,以避开那些阻止抓取工具的策略/措施。 | 可以采取填写表格等高级操作,来访问受限制的信息。 | 通常不考虑 robots.txt,也就是说,他们可能会明确地违背网站所有者的意愿,提取内容。 |
爬网程序机器人 | 会表明其目的,不会试图欺骗网站让其误以为爬网程序是真实存在的用户。 | 不会尝试访问网站上受限制的信息。 | 遵守 robots.txt 文件规则,也就是说,他们遵守网站所有者的意愿,确定需要解析哪些数据以及应该避免抓取哪些区域的数据。 |
虽然 Web 抓取流程非常简单,但它的实施可能很复杂。整个流程可以总结为三个步骤:
通常情况下,公司不希望其独特内容被下载并重新用于任何未经授权的目的,因此,它们可能会尽量不通过可用 API 或其他易于访问的资源来公开所有数据。而另一方面,不管网站怎样限制访问权限,抓取机器人都对抓取网站数据感兴趣。因此,Web 抓取机器人与各种内容保护策略之间形成了一场类似猫捉老鼠的游戏,双方都希望以策略制胜。
智能抓取策略需要智能缓解策略。限制数据抓取活动的方法包括:
*无头浏览器是一种 Web 浏览器,与 Chrome 或 Firefox 非常相似,但默认情况下它没有可视化用户界面,因此,其运行速度比常规 Web 浏览器快得多。无头浏览器本质上是在命令行级别运行,因此,能够避免呈现整个 Web 应用。数据抓取工具会编写机器人,采用无头浏览器来更快速地提出获取数据请求,因为没有人类用户在浏览被抓取的每个页面
完全阻止 Web 抓取的唯一方法,是避免将所有内容全部放在一个网站上。不过,采用先进的机器人管理解决方案,有助于网站阻止抓取机器人访问。
Cloudflare Bot Management使用机器学习和行为分析来识别恶意抓取活动,从而保护独特内容并防止机器人滥用 Web 资产。类似地,Super Bot Fight 模式旨在帮助小型企业抵御抓取工具和其他恶意机器人活动,同时让它们更深入了解其机器人流量。
入门
关于机器人
机器人攻击
机器人管理
词汇