什麼是內容剽竊?| Web 剽竊

內容剽竊或 Web 剽竊是指機器人下載或「剽竊」一個網站上的所有內容,通常是為了惡意使用該內容。

學習目標

閱讀本文後,您將能夠:

  • 瞭解什麼是內容剽竊
  • 瞭解 Web 剽竊機器人的運作方式
  • 解釋為什麼攻擊者會剽竊內容
  • 瞭解如何停止內容剽竊

相關內容


想要繼續瞭解嗎?

訂閱 TheNET,這是 Cloudflare 每月對網際網路上最流行見解的總結!

請參閱 Cloudflare 的隱私權政策,了解我們如何收集和處理您的個人資料。

複製文章連結

什麼是內容剽竊?

內容剽竊機器人

內容剽竊或 Web 剽竊,是指機器人不顧擁有者的意願,下載網站的大部分或全部內容的情況。內容剽竊是資料剽竊的一種形式。它基本上總是由自動化機器人執行。網站剽竊機器人有時可以在幾秒鐘內下載網站上的所有內容。

內容剽竊機器人通常用於將內容重新用於惡意目的,例如在攻擊者擁有的網站上複製用於 SEO 的內容、侵犯版權和竊取自然流量。內容剽竊可能涉及填寫和提交表格以存取其他受管制的內容,這種做法的副作用是會導致公司資料庫中產生垃圾資料。此外,滿足來自機器人的 HTTP 請求會佔用原本應該服務於真實人類使用者的伺服器資源。

機器人如何剽竊內容?

網站剽竊機器人通常會傳送一系列 HTTP GET 請求,然後複製並儲存網頁伺服器作為回覆傳送的所有資訊,並逐步遍歷網站的階層,直到複製完所有內容。

例如,更複雜的剽竊機器人可以使用 JavaScript 來填寫網站上的每個表單並下載任何受管制的內容。「瀏覽器自動化」程式和 API 允許自動化機器人與網站和 API 進行互動,就像它們使用傳統的 Web 瀏覽器一樣,從而試圖欺騙網站的伺服器,使其認為是人類使用者正在存取內容。

當然,個人可以手動複製和粘貼整個網站,但機器人可以在幾秒鐘內耙梳和下載網站上的所有內容,即使對於具有數百或數千個單獨產品頁面的電子商務網站等大型網站也是如此。

內容剽竊機器人針對哪些類型的內容?

機器人可以剽竊網際網路上公開發佈的任何內容——文字、影像、HTML 程式碼、CSS 程式碼等。攻擊者可以將剽竊的資料用於各種目的。文字可以在另一個網站上重複使用,以竊取第一個網站的搜尋引擎排名,或欺騙使用者。攻擊者可以使用網站的 HTML 和 CSS 程式碼來複製合法網站的外觀或其他公司的品牌。網路犯罪分子可以使用被盜內容建立網路釣魚網站,打造一個看起來像另一網站的真實版本,來誘騙使用者輸入個人資訊

還有哪些其他類型的 Web 剽竊?

聯絡資訊剽竊

這是指掃描網站以獲取聯絡資訊(例如電話號碼和電子郵件地址),然後下載該資訊的行為。電子郵件收集機器人是一種專門針對電子郵件地址的剽竊機器人,通常用於查找垃圾郵件的新目標。

價格剽竊

這是指一家公司從競爭對手的網站下載所有定價資訊,以相應地調整自身定價的行為。

請參閱什麼是資料剽竊?以瞭解更多資訊。

公司如何防止 Web 剽竊?

機器人管理解決方案通常可借助機器學習來識別機器人行為模式,並緩解機器人剽竊活動。限速還有助於防止內容剽竊:真正的使用者在幾秒鐘或幾分鐘內不太可能要求數百頁的內容,任何要求極快的「使用者」都可能是機器人。CAPTCHA 質詢也能夠協助將機器人與真實使用者區分開來。

Cloudflare 傀儡程式管理旨在封鎖內容剽竊攻擊,以及針對其他類型惡意流量的機器人緩解。與限速或 CAPTCHA 解決方案不同,基於機器學習的 Cloudflare 傀儡程式管理能夠根據行為模式識別傀儡程式,從而減少使用者的摩擦和誤判(使用者意外識別為傀儡程式)。較小的組織還可以封鎖內容剽竊攻擊,並透過 Cloudflare Pro 和商業方案中可用的 Super Bot Fight Mode 瞭解其傀儡程式流量。