攻擊者可用網路剽竊工具存取資料,速度還比預計的快得多。此舉可能導致未經授權的資料使用。
閱讀本文後,您將能夠:
複製文章連結
最常見的資料剽竊指的是:利用電腦程式的技術,以擷取其他程式的輸出資料。最常用的 Web 剽竊形式是網站剽竊,也就是利用應用程式從網站擷取寶貴資訊的流程。
剽竊傀儡程式旨在達成許多目的,例如:
爬行指的是類似 Google 的大型搜尋引擎進行的流程,傳送機器人網路爬蟲,如 Googlebot 之網路指定網際網路內容的索引。另一方面,剽竊專門建構用於擷取特定網站的資料。
以下是剽竊機器人和網路爬蟲機器人在行為模式上的三大差異:
誠實/透明度 | 高階操作手法 | 尊重 robots.txt | |
剽竊機器人 | 將偽裝成 Web 瀏覽器,以繞過任何封鎖剽竊者的措施。 | 能夠執行進階動作,例如填寫表單以存取受限制的資訊。 | 通常不考慮 robots.txt,這意味著它們可以違背網站擁有者的意願明確提取內容 |
網路爬蟲機器人 | 會明確表明其用途,且不會試圖欺騙網站,讓網站誤以為該爬蟲是其他類型的程式。 | 不會嘗試存取網站的受限內容。 | 遵循 robots.txt,這意味著它們會遵守網站擁有者的指示,剖析允許抓取的資料範圍,並避開網站擁有者設定禁止存取的區域。 |
儘管實行之道可能會複雜,但 Web 網站內容擷取的流程相當簡單。我們可以將其流程概括為 3 個步驟:
通常,公司不希望其獨特內容被第三方下載和再用於未經授權的目的,因此他們可能會嘗試不透過可使用的 API 或其他容易存取的資源來公開所有資料。另一方面,無論企業如何嘗試限制存取,剽竊機器人都很有興趣取得網站資料。因此,Web 剽竊機器人和不同的內容保護策略之間,就不斷玩著貓捉老鼠的遊戲,雙方都迫切希望打敗對手。
針對智慧型剽竊策略,需要智慧型緩解策略來應對。限制暴露於資料剽竊的方法包括:
*無頭瀏覽器是一種網路瀏覽器,很像 Chrome 或 Firefox,卻預設沒有視覺使用者介面,因此可比典型的網路瀏覽器移動得快很多。無頭瀏覽器實質上是在指令行上執行,能避免轉譯整個 Web 應用程式。資料剽竊者撰寫使用無頭瀏覽器的機器人,以便更快速查詢資料,因為剽竊的每一頁都不會由人類檢視。
唯一能完全杜絕 Web 剽竊的方法,就是徹底停止在網站上發佈任何內容。然而,採用先進的機器人管理解決方案,能幫助網站有效攔阻剽竊機器人的存取。
Cloudflare Bot Management 使用機器學習和行為分析,以識別惡意剽竊活動、保護獨特內容,並防止機器人濫用 Web 資產。與此相似,Super Bot Fight 模式旨在協助較小規模的組織防禦剽竊者和其他惡意機器人活動,同時讓他們更深入瞭解其機器人流量。