什么是内容抓取?|网页抓取

内容抓取或网页抓取是指机器人从网站上下载或"抓取"所有的内容,并通常为了恶意使用该内容。

Share facebook icon linkedin icon twitter icon email icon

内容抓取

学习目标

阅读本文后,您将能够:

  • 了解什么是内容抓取
  • 了解网页抓取机器人的工作原理
  • 阐释攻击者为何会抓取内容
  • 了解如何防止内容抓取

什么是内容抓取?

The OSI Model

内容抓取或网络抓取是指机器人在不考虑网站所有者意愿的情况下在网站上下载大量或全部内容。内容抓取是数据抓取一种形式。它基本上总是由自动机器人执行。网站抓取机器人有时可以在几秒钟内下载网站上的所有内容。

内容抓取机器人通常用于恶意目的将内容重新利用,例如在攻击者所拥有的网站上为SEO复制内容、侵犯版权和窃取有机流量。内容抓取可能涉及填写和提交表格以访问受限制控制的内容,这种做法的副作用是导致公司数据库中产生垃圾数据。此外,满足来自机器人的HTTP请求会占用原本应该服务于真实人类用户的服务器资源。

机器人如何抓取内容?

网站抓取机器人通常会发送一系列HTTP GET请求,然后复制并保存Web服务器回复的所有信息,并逐步遍历网站的层次结构,直到复制所有内容。

例如,更复杂的抓取机器人可以使用JavaScript来填写网站上的每个表格并下载任何受限内容。 "浏览器自动化"程序和API允许机器人与网站和API进行自动交互,就好像它们在使用传统的网页浏览器,试图诱骗网站的服务器以为是真实人类用户在访问站点内容。

当然,一个人也可以手动复制并粘贴整个网站,但是机器人可以在几秒钟内抓取并下载网站上的所有内容,即使是大型网站(例如具有成百上千个单独产品的电子商务网站)页面也不例外。

内容抓取机器人的目标是哪种内容?

机器人可以抓取在互联网上公开发布的所有内容–文本、图像、HTML代码、CSS代码等等。攻击者可以将抓取的数据用于多种目的。文本可以用来复制到另一个网站上重复使用,以窃取原网站的搜索引擎排名或欺骗用户。攻击者可能使用原网站的HTML和CSS代码来复制伪造一个看似合法的网站外观或其他公司的品牌。网络罪犯可以使用被盗的内容创建网络钓鱼网站,这些网站看起来像另一个网站的真实版本,从而诱骗用户输入个人数据。

还有哪些其他类型的网页抓取?

联络信息抓取

这是指扫描网站以获取联系信息,例如电话号码和电子邮件地址,然后下载该信息。电子邮件收集机器人是一种专门针对电子邮件地址的抓取机器人,通常用于查找垃圾信息的新推送目标。

价格抓取

这是指一家公司从竞争对手公司的网站下载所有定价信息,以便他们可以相应地调整自己的定价。

请参阅什么是数据抓取?以了解更多信息。

公司如何防止网页抓取?

机器人管理解决方案可以借助机器学习来识别机器人行为模式并防止机器人抓取活动。速率限制通常还可以帮助防止内容被抓取:真正的用户不太可能在几秒钟或几分钟内请求几百个页面的内容,而任何以这么高的速度迅速提出请求的"用户"都可能是机器人。CAPTCHA测试也可以帮助从机器人中筛选出真正的用户。

Cloudflare 机器人管理旨在阻止内容抓取攻击,以及防护其他种类的恶意流量机器人。与限速或CAPTCHA解决方案不同,基于机器学习的Cloudflare机器人管理可以根据行为模式识别机器人,从而为用户减少摩擦,减少误报(被误认为是机器人的用户)。