What is data scraping?

Data scraping is a technique where a computer program extracts data from the output of another program. A common form of this is web scraping.

What are the different types of web scraping?

Web scraping can be used for many purposes, including: Content scraping: An attacker pulls a website's content to replicate it on their own site; Price scraping: A competitor scrapes pricing data to gain an advantage by undercutting prices; Contact scraping: A bot gathers contact details like email addresses and phone numbers from websites to be used for spam, robo calls, or malicious social engineering.

What is the difference between data scraping and web crawling?

Web crawling is the process used by large search engines to index Internet content, and crawler bots are generally transparent about their purpose. Data scraping, on the other hand, is typically designed to extract specific data from a particular website.

How do websites get scraped?

The process typically involves three steps. First, a scraper bot sends an HTTP GET request to a website. Second, when the website responds, the scraper parses the HTML document to find a specific pattern of data. Finally, the extracted data is converted into a specific format designed by the bot's author.

How can data scraping be mitigated?

Several strategies can limit exposure to data scraping. These include rate-limiting requests to block abnormally fast traffic from a single IP address, regularly modifying a website's HTML markup to disrupt simple scrapers, and using challenges like CAPTCHAs for high-volume requesters.

Can web scraping be stopped completely?

Using an advanced bot management solution can help websites eliminate access for scraper bots. Cloudflare Bot Management, for example, uses machine learning and behavioral analysis to identify and stop malicious scraping activity.

何謂資料剽竊？

攻擊者可用網路剽竊工具存取資料，速度還比預計的快得多。此舉可能導致未經授權的資料使用。

學習目標

閱讀本文後，您將能夠：

定義資料剽竊
說明網站剽竊背後的目的
了解緩解資料剽竊的方法
辨別資料剽竊和資料爬行之間的差別

想要繼續瞭解嗎？

訂閱 TheNET，這是 Cloudflare 每月對網際網路上最流行見解的總結！

複製文章連結

使用 Cloudflare 防禦憑證填充和內容剽竊等傀儡程式攻擊

開始阻止惡意傀儡程式

何謂資料剽竊？

最常見的資料剽竊指的是：利用電腦程式的技術，以擷取其他程式的輸出資料。最常用的 Web 剽竊形式是網站剽竊，也就是利用應用程式從網站擷取寶貴資訊的流程。

有哪些不同類型的 Web 剽竊？為什麼要剽竊網站資料？

剽竊傀儡程式旨在達成許多目的，例如：

內容剽竊 - 提取網站的內容，以便複製仰賴內容的特定產品或服務的獨特優勢。以餐廳評論網站為例，競爭對手可以抓取所有評論，然後在自己的網站上複製這些內容，假裝這些內容是原創的（並從中獲利）。
價格剽竊 - 競爭對手剽竊價格資料後，就能彙整競爭現況資訊，這可能讓他們得以形成獨特的競爭優勢，即透過低價搶市，進而奪走競爭對手的生意。
內容剽竊 - 許多網站內含純文字格式的電子郵件地址以及電話號碼。透過抓取線上員工目錄等頁面，剽竊者可以彙總聯絡方式詳細資料，用於群發垃圾郵件、自動電訪，甚至進行惡意的社交工程攻擊。這是垃圾郵件傳送者和詐騙者用以尋找新下手目標的主要方法之一。

資料剽竊和資料爬行之間有何不同？

爬行指的是類似 Google 的大型搜尋引擎進行的流程，傳送機器人網路爬蟲，如 Googlebot 之網路指定網際網路內容的索引。另一方面，剽竊專門建構用於擷取特定網站的資料。

以下是剽竊機器人和網路爬蟲機器人在行為模式上的三大差異：

	誠實／透明度	高階操作手法	尊重 robots.txt
剽竊機器人	將偽裝成 Web 瀏覽器，以繞過任何封鎖剽竊者的措施。	能夠執行進階動作，例如填寫表單以存取受限制的資訊。	通常不考慮 robots.txt，這意味著它們可以違背網站擁有者的意願明確提取內容
網路爬蟲機器人	會明確表明其用途，且不會試圖欺騙網站，讓網站誤以為該爬蟲是其他類型的程式。	不會嘗試存取網站的受限內容。	遵循 robots.txt，這意味著它們會遵守網站擁有者的指示，剖析允許抓取的資料範圍，並避開網站擁有者設定禁止存取的區域。

如何剽竊網站內容？

儘管實行之道可能會複雜，但 Web 網站內容擷取的流程相當簡單。我們可以將其流程概括為 3 個步驟：

首先，用以擷取資訊的程式碼（剽竊機器人）會傳送 HTTP GET 要求至特定網站。
網站回應後，剽竊傀儡程式針對特定的資料模式，解析 HTML 文件。
擷取資料後，就轉換為剽竊傀儡程式設計者預設的指定格式。

通常，公司不希望其獨特內容被第三方下載和再用於未經授權的目的，因此他們可能會嘗試不透過可使用的 API 或其他容易存取的資源來公開所有資料。另一方面，無論企業如何嘗試限制存取，剽竊機器人都很有興趣取得網站資料。因此，Web 剽竊機器人和不同的內容保護策略之間，就不斷玩著貓捉老鼠的遊戲，雙方都迫切希望打敗對手。

如何緩解網站剽竊？

針對智慧型剽竊策略，需要智慧型緩解策略來應對。限制暴露於資料剽竊的方法包括：

限速查詢 - 若人類訪客點擊了網站上的一系列網頁，則能夠預計其與網站互動的速度，例如：人類無法在一秒內瀏覽 100 個網頁。另一方面，電腦提出要求的速度可能比人類快好幾個數量級，而且新穎資料剽竊者可能會使用未受節流的剽竊技術，試圖非常快速地擷取整個網站。透過採取限速手段，限制特定 IP 位址於指定時限內可提出的最高要求數，網站能夠防範惡意要求攻擊，並有效減少該時段內的資料剽竊量。
定期修改 HTML 標記 - 資料剽竊機器人依賴一致的格式，以便有效地遍歷網站內容並剖析資料。中斷此作業流程的方法之一就是定期變更 HTML 標示元素。透過巢狀嵌套 HTML 元件，或變更標示的其他層面，就能妨礙或遏止簡單的資料剽竊作業。例如，某些網站會在每次呈現網頁時隨機進行某種形式的內容保護修改；另一些網站則可能會每幾週更新一次前端，以防止較長期的資料剽竊。
對高流量要求者使用質詢 - 減緩內容剽竊的另一個有用步驟是要求網站訪客回應電腦難以解決的質詢。人類能夠合理回應質詢，但無頭瀏覽器*很可能無法完成，尤其是在面對多次質詢的情況下更是如此。
另一個較不常見的緩解方法是在影像之類的媒體物件中嵌入內容。由於內容並非以字元字串的形式存在，因此複製內容就複雜得多，要求光學文字辨識 (OCR) 來擷取影像檔案內的資料。

*無頭瀏覽器是一種網路瀏覽器，很像 Chrome 或 Firefox，卻預設沒有視覺使用者介面，因此可比典型的網路瀏覽器移動得快很多。無頭瀏覽器實質上是在指令行上執行，能避免轉譯整個 Web 應用程式。資料剽竊者撰寫使用無頭瀏覽器的機器人，以便更快速查詢資料，因為剽竊的每一頁都不會由人類檢視。

如何全面停止網站剽竊？

唯一能完全杜絕 Web 剽竊的方法，就是徹底停止在網站上發佈任何內容。然而，採用先進的機器人管理解決方案，能幫助網站有效攔阻剽竊機器人的存取。

利用 Cloudflare 防範剽竊攻擊

Cloudflare Bot Management 使用機器學習和行為分析，以識別惡意剽竊活動、保護獨特內容，並防止機器人濫用 Web 資產。與此相似，Super Bot Fight 模式旨在協助較小規模的組織防禦剽竊者和其他惡意機器人活動，同時讓他們更深入瞭解其機器人流量。

常見問題集

何謂資料剽竊？

資料剽竊是一種電腦程式從另一個程式的輸出中提取資料的技術。網路剽竊是這種技術的常見形式。

有哪些不同類型的網路剽竊？

網路剽竊可用於多種用途，包括：內容剽竊：攻擊者抓取網站內容並將其複製到自己的網站上。價格剽竊：競爭對手剽竊價格資料，透過低價競爭取得優勢。聯絡方式剽竊：機器人從網站收集電子郵件地址和電話號碼等聯絡方式，用於傳送垃圾郵件、撥打騷擾電話或進行惡意社交工程攻擊。

資料剽竊和網路爬取之間有何不同？

網路爬行是大型搜尋引擎用來索引網際網路內容的過程，爬蟲機器人通常會明確其用途。而資料剽竊則通常旨在從特定網站擷取特定資料。

網站內容是如何被剽竊的？

該過程通常包含三個步驟。首先，爬蟲機器人會向網站傳送一個 HTTP GET 請求。然後，當網站回應後，剽竊程式會剖析 HTML 文件以尋找特定的資料模式。最後，擷取的資料被轉換為機器人作者設計的特定格式。

如何減輕資料剽竊？

有多種策略可以限制資料剽竊的風險。這些策略包括：限制請求速率以封鎖來自單一 IP 位址的異常快速流量，定期修改網站的 HTML 標記以乾擾簡單的剽竊程式，以及對高流量請求者使用 CAPTCHA 等質詢。

有可能完全阻止網路剽竊嗎？

使用先進的機器人管理解決方案可以幫助網站阻止剽竊機器人的存取。例如，Cloudflare Bot Management 利用機器學習和行為分析來識別和阻止惡意剽竊活動。

開始使用

關於傀儡程式

傀儡程式攻擊

傀儡程式管理

字彙

學習中心導覽