什么是内容抓取?|网页抓取

内容抓取或网页抓取是指机器人从网站上下载或"抓取"所有的内容,并通常为了恶意使用该内容。

学习目标

阅读本文后,您将能够:

  • 了解什么是内容抓取
  • 了解网页抓取机器人的工作原理
  • 阐释攻击者为何会抓取内容
  • 了解如何防止内容抓取

相关内容


想要继续学习吗?

订阅 TheNET,这是 Cloudflare 每月对互联网上最流行见解的总结!

参阅 Cloudflare 的隐私政策,了解我们如何收集和处理您的个人数据。

复制文章链接

什么是内容抓取?

内容抓取机器人

内容抓取或 Web 抓取是指机器人自行从某个网站下载大部分或全部内容,而不顾网站所有者的意愿。内容抓取是数据抓取的一种形式,其目标内容包括原始 Web 图形、专业简历和餐厅评论等。在大多数情况下,抓取工作由能够大规模快速收集信息的自动化机器人执行。

内容抓取可以用于合法目的,例如汇总数据以优化搜索引擎。然而,抓取机器人经常被用于恶意目的,例如侵犯版权、复制内容以在攻击者拥有的网站上进行搜索引擎优化,以及窃取自然流量。这些机器人还可能导致使用情况分析出现偏差以及服务器资源耗尽。

机器人如何抓取内容?

网站抓取机器人通常会发送一系列 HTTP GET 请求,然后复制和保存 Web 服务器回复的所有信息,并逐步遍历网站的层次结构,直到复制所有内容。

例如,更复杂的抓取机器人可以使用 JavaScript 来填写网站上的所有表单,以便访问并下载受限制的内容。"浏览器自动化"程序和 API 让自动化机器人能够与网站和 API 进行交互,就像使用传统的 Web 浏览器一样,企图诱骗网站服务器认为是人类用户在访问内容。

当然,个人也可以手动复制并粘贴整个网站的内容,但是机器人可以在几秒钟内抓取并下载网站上的所有内容,即使是具有成百上千个单独产品页面的大型电子商务网站也能做到。

抓取机器人的目标是哪些类型的内容?

机器人可能会抓取互联网上公开发布的任何内容,包括文本、图像、HTML 代码、CSS 代码等。然后,攻击者可以将抓取到的数据用于各种目的。例如,在其他网站上重复使用文本来窃取第一个网站的搜索引擎排名,或欺骗用户。攻击者也可能使用网站的 HTML 和 CSS 代码来复制合法网站的外观或其他公司的品牌。网络犯罪分子可能会使用窃取的内容来创建网络钓鱼网站,通过模仿其他网站的真实版本外观来诱骗用户输入个人信息

Web 抓取造成的业务难题

Web 抓取可能会带来一些潜在的业务危害。

  • 削减价格 - 竞争对手抓取我司的价格,以低于我司的价格出售,然后夺走我的销量。这会影响正在向客户销售的某种东西,无论是产品还是服务。
  • 业务分析出现偏差会影响规划:公司将使用情况指标作为业务决策的一个因素,尤其是在营销、演示以及在哪里投入更多资源方面。抓取工具污染了此类使用数据。
  • 网站性能受损 - 抓取工具执行的繁琐操作,可能会导致网站速度变慢。如果抓取行为过于频繁,客户的服务器可能无法处理流量,导致合法用户无法访问网站。这对在线零售商尤其有害,因为可能会阻止销售。
  • 运营成本增加 - 抓取工具占用的带宽,可能会显著增加成本。
  • 用户去其他地方获取我的信息 - 最终用户可以通过 AI 聊天机器人或其他网站找到相同的信息,因此,原始信息源失去了流量。这对那些商业模式依赖于付费订阅或广告收入的公司尤其有害,特别是那些只向订阅用户授予无限制访问权限的新闻网站或收入严重依赖于广告浏览量的娱乐网站。

还有哪些其他类型的网页抓取?

价格抓取

价格抓取是指某个网站上的所有价格信息被下载,下载方通常是竞争对手公司。如果竞争对手调整价格来提供更加有利的价格,促使消费者从竞争对手那里购买,而不是在原始(抓取的)网站上购买,这种做法可能会造成损害。

联络信息抓取

联系信息抓取是指扫描网站以获取联系信息(例如电话号码和电子邮件地址),然后下载该信息。这种抓取通常是为了寻找新的垃圾邮件目标。

请参阅什么是数据抓取?以了解更多信息。

公司如何防止网页抓取?

机器人管理解决方案可以借助机器学习来识别机器人行为模式,并缓解机器人抓取活动。速率限制也有助于防止内容抓取:真实用户不太可能在几秒钟或几分钟内请求获取几百页的内容,而任何快速发出此类请求的“用户”很可能是机器人。此外,引入机器人无法解决的插播质询,有助于区分真实用户与机器人。

使用 Cloudflare 解决方案,防范 Web 抓取

Cloudflare Bot Management设计用于阻止内容抓取机器人,保护网站免受恶意机器人流量的影响。基于机器学习的 Cloudflare Bot Management 可以根据行为模式识别机器人,从而减少用户摩擦和误报。为了实现强大的数据抓取缓解方法,可以组合使用机器人检测、速率限制请求以及 Turnstile 质询验证。

小型企业还可以使用 Cloudflare Pro 和 Business 计划提供的 Super Bot Fight 模式,阻止抓取攻击和了解机器人流量。