什麼是機器人管理?| 機器人管理如何工作?

傀儡程式管理涉及識別和封鎖來自網站或應用程式的某些傀儡程式,同時仍允許存取其他傀儡程式。

學習目標

閱讀本文後,您將能夠:

  • 理解傀儡程式進行的事項,以及有必要管理的原因
  • 瞭解傀儡程式管理員產品進行的事項
  • 探索傀儡程式應受到允許或封鎖的原因

相關內容


想要繼續瞭解嗎?

訂閱 TheNET,這是 Cloudflare 每月對網際網路上最流行見解的總結!

請參閱 Cloudflare 的隱私權政策,了解我們如何收集和處理您的個人資料。

複製文章連結

什麼是傀儡程式管理?

機器人管理——機器人分組

機器人管理是指,阻止有害或惡意的網際網路機器人流量,同時仍允許有用的機器人訪問 web 資產。為此,機器人管理檢測機器人活動、辨別有用和有害的機器人行為,並識別有害活動的來源。

如果不加控制,機器人有可能給 Web 資產帶來各種嚴重問題,因此機器人管理必不可少。機器人流量過多會給 Web 伺服器造成沉重負載,導致對合法使用者提供服務的速度下降或拒絕服務(有時表現為 DDoS 攻擊)。惡意機器人可從網站抓取或下載內容、盜取使用者認證、快速傳播垃圾內容,或實施其他各種網路攻擊。

傀儡程式管理員進行哪些事項?

傀儡程式管理員意指任何管理傀儡程式的軟體產品。傀儡程式管理員應能夠封鎖某些傀儡程式並允許其他傀儡程式通過,而非只是封鎖所有非人為的流量。例如,若所有傀儡程式受到封鎖,而 Google 傀儡程式無法將頁面編入索引,則該頁面就無法顯示在 Google 搜尋結果中,造成前往網站的有機流量大幅減少。

良好的傀儡程式管理員可達成下列目標。這可以:

  • 識別傀儡程式與人類訪客
  • 識別傀儡程式信譽
  • 根據 IP 聲譽識別傀儡程式來源 IP 位址並封鎖
  • 分析傀儡程式行為
  • 將「良好」傀儡程式新增至白名單
  • 使用 CAPTCHA 測試、JavaScript 注入或其他方法質詢可能的機器人。
  • 對可能過度使用服務的機器人進行限速
  • 拒絕「惡意」傀儡程式存取特定內容或資源
  • 對傀儡程式提供替代內容

什麼是傀儡程式?

傀儡程式是在網路上作業的電腦程式。傀儡程式經過程式化,會自動進行特定動作。通常傀儡程式執行的任務相單簡單,但傀儡程式會透過比人類快上許多的速度一再進行。

例如,Google 使用傀儡程式持續爬梳網頁並將內容編入索引以供搜尋。這需要人類團隊耗費大量時間檢閱散佈在網際網路各處的內容,但 Google 的傀儡程式則能夠將 Google 的搜尋索引保持最新狀態。

就負面例子而言,垃圾郵件發信者會使用取得傀儡程式的電子郵件,以收集來自網際網路各處的電子郵件地址。傀儡程式會爬梳網頁,尋找遵循電子郵件地址格式的任何文字 (文字 + @ 符號 + 網域),並將該文字儲存到資料庫。一般而言,人類可以透過電子郵件地址查看網頁,但因為這些取得傀儡程式的電子郵件經過自動化,只會查看適合特定參數的文字,所以在尋找電子郵件地址時的速度會呈指數型增長。

與人類使用者存取網際網路不同,傀儡程式通常不會透過 Google Chrome 或 Mozilla Firefox 等傳統網頁瀏覽器存取網際網路。傀儡程式不會操作滑鼠 (或智慧型手機) 和點選瀏覽器中的視覺內容,而只是進行 HTTP 請求 (在其他活動當中) 的軟體程式,通常使用所謂的「無頭瀏覽器」。

傀儡程式進行哪些事項?

機器人幾乎能夠執行任何非創新性的重複任務,即任何可以自動化的任務。它們能夠與網頁交互、填寫並提交表格、點選連結、掃描(或“爬取”)文本,以及下載內容。機器人能夠「觀看 」視訊、發表評論,以及在社交媒體平臺上發帖、點贊或者轉發文章。某些機器人甚至可以與人類使用者進行基本的對話,這些就是所謂的聊天機器人

良好傀儡程式與惡意傀儡程式之間有什麼差異?

驚人的是,許多資訊來源估計,在所有網際網路流量當中,大約有一半是傀儡程式流量。其中有一些 (並非全部) 軟體是惡意程式碼,有些傀儡程式是惡意,而有些是「良好」。

任何不當使用線上產品或服務的傀儡程式可視為「惡意」。惡意傀儡程式的範圍包括公然惡意,例如嘗試入侵使用者帳戶的傀儡程式,也包括較溫和的資源誤用形式,例如在活動網站上大量購買票券的傀儡程式。

執行所需或有用服務的機器人被視為「善意」機器人。客戶服務聊天機器人、搜尋引擎網頁爬蟲效能監控機器人都是善意機器人的示例。善意機器人通常會查找並遵守網站 robots.txt 檔中列出的規則。

什麼是 robots.txt 檔案?

Robots.txt 是網頁伺服器上的檔案,大致說明傀儡程式存取伺服器內容的規則。不過,檔案本身不執行這些規則。基本上,任何設計傀儡程式的人都應該遵守榮譽制度,並確認他們的傀儡程式先檢查網站的 robots.txt 檔案,再存取網站。當然,惡意傀儡程式通常不會遵守這套制度,因此需要進行傀儡程式管理。

傀儡程式管理如何運作?

若要識別傀儡程式,傀儡程式管理員可使用 JavaScript 挑戰 (這判定是否正在使用傳統網頁瀏覽器) 或 CAPTCHA 挑戰。他們也能透過行為分析 (亦即比較使用者的行為與過去使用者的標準行為) 判定哪些使用者是人類,哪些是傀儡程式。傀儡程式管理員必須大量收集高品質的行為資料以供檢查,才能進行行為分析。

若判定傀儡程式是惡意程式,則可以重新導向至不同的頁面或封鎖存取網頁資源。

良好傀儡程式可新增至白名單,或受允許的傀儡程式清單 (相反者為黑名單)。傀儡程式管理員也能透過進一步的行為分析來辨識良好和惡意的傀儡程式。

另一個傀儡程式管理方法是使用 robots.txt 檔案設定網路誘捕系統。網路誘捕系統是一種供惡意執行者使用的虛假目標,當網路誘捕系統遭到存取時,就會顯露出惡意執行者的惡意性質。就傀儡程式而言,網路誘捕系統可以是透過 robots.txt 檔案受到傀儡程式禁止的網站網頁。良好的傀儡程式將會讀取 robots.txt 檔案並避開該網頁;有些惡意傀儡程式則會爬梳該網頁。藉由追蹤存取網路誘捕系統的傀儡程式的 IP 位址,可識別並封鎖惡意傀儡程式。

傀儡程式管理可緩解哪些種類的傀儡程式攻擊?

傀儡程式管理解決方案可協助阻止各種攻擊:

這些其他傀儡程式活動不一定會被視為「惡意」,但傀儡程式管理員應能夠予以緩解,無論是下列何種情況:

  • 庫存囤積
  • 在社交論壇或平台上自動發佈
  • 購物車填充

Cloudflare 如何管理傀儡程式?

Cloudflare 具有獨特的能力,可從每天透過其網路進行的數十億個請求中收集資料。藉由此資料,Cloudflare 透過機器學習和行為分析來識別可能的機器人活動,並能夠提供必要的資料,建立有效的善意機器人允許清單或者惡意機器人阻止清單。Cloudflare 也具有範圍廣泛的 IP 信譽資料庫。進一步瞭解 Cloudflare 機器人管理。

超級機器人抵禦模式現已通過 Cloudflare Pro 和Business 方案提供,旨在幫助較小規模的組織防禦機器人攻擊,同時更深入瞭解其機器人流量。