如何管理良性機器人 | 良性機器人與惡意機器人

需要管理的不僅僅是惡意機器人。機器人管理策略需要避免封鎖善意機器人,同時減少惡意機器人。

學習目標

閱讀本文後,您將能夠:

  • 瞭解善意機器人與惡意機器人之間的區別
  • 瞭解善意機器人之「善」,以及為什麼善意機器人需要能夠存取 Web 屬性
  • 瞭解管理善意和惡意機器人的有效策略

相關內容


想要繼續瞭解嗎?

訂閱 TheNET,這是 Cloudflare 每月對網際網路上最流行見解的總結!

請參閱 Cloudflare 的隱私權政策,了解我們如何收集和處理您的個人資料。

複製文章連結

什麼是善意機器人?

善意機器人:聊天機器人、監控機器人、搜尋引擎機器人

機器人是一種電腦程式,可透過網際網路自動與 Web 資產進行互動。「善意」機器人是執行有用任務的機器人,這些任務不會損害使用者在網際網路上的體驗。由於善意機器人可能與惡意機器人具備相似的特徵,因此現有的挑戰是確保在制定機器人管理策略時不會封鎖善意機器人。

有多種善意機器人,每一種都設計用於完成不同的任務。以下是一些範例:

  • 搜尋引擎機器人:也稱為網路爬蟲或蜘蛛。這些機器人「爬行」或檢閱網際網路上幾乎每個網站上的內容,然後對該內容進行索引,以便它可以顯示在相關使用者搜尋的搜尋引擎結果中。它們由 Google、Bing 或 Yandex 等搜尋引擎操作。
  • 版權機器人:此類機器人在平台或網站爬行,尋找可能違反版權法的內容。這些機器人可能由擁有受版權保護內容的任何個人或公司操作。版權機器人可以查找重複的文字、音樂、影像甚至影片。
  • 網站監控機器人:這些機器人監控網站指標(例如,監控反向連結或系統中斷),並就重大變更或停機時間對使用者發出提醒。例如,Cloudflare 營運著一個名為 Always Online 的網路爬蟲機器人,當原始伺服器關閉時,它會告訴 Cloudflare 網路提供網頁的快取版本。
  • 商業機器人:由商業公司操作的機器人,它們爬行網際網路以獲取資訊。這些機器人可能由監控新聞報導或客戶評論的市場研究公司、優化其廣告展示位置的廣告網路或爬行客戶網站的 SEO 機構操作。
  • 摘要機器人:這些機器人在網際網路上爬行,尋找有新聞價值的內容以新增到平台的新聞摘要中。內容彙總工具網站或社交媒體網路可能會操作這些機器人。
  • 聊天機器人:聊天機器人透過用預先程式設計的回應回答使用者來模仿人類對話。一些聊天機器人足夠複雜,可以進行長時間的對話。
  • 個人助理機器人:如 Siri 或 Alexa。儘管這些程式比典型的機器人先進得多,但它們仍然是機器人,仍然是流覽 Web 以獲取資料的電腦程式。

善意機器人與惡意機器人

Web 資產需要確保它們在嘗試篩選掉惡意機器人流量時不會封鎖這些類型的機器人。不要封鎖搜尋引擎網路爬蟲機器人,這一點尤為重要,因為沒有它們,網站就無法顯示在搜尋結果中。

惡意機器人可以竊取資料、入侵使用者帳戶、透過線上表單提交垃圾資料以及執行其他惡意活動。惡意機器人的類型包括認證填充機器人內容剽竊機器人垃圾內容機器人點擊欺詐機器人

什麼是 robots.txt?

善意機器人管理始於在網站的 robots.txt 檔案中正確設定規則。robots.txt 檔案是駐留在 Web 伺服器上的文字檔案,它為所有存取託管網站或應用程式的機器人指定規則。這些規則定義了機器人可以爬行和不能爬行的頁面、它們應該和不應該進入的連結以及其他機器人行為要求。

善意機器人會遵循這些規則。例如,如果網站擁有者不希望其網站上的某個頁面顯示在 Google 搜尋結果中,他們可以在 robots.txt 檔案中編寫規則,Google 網路爬蟲機器人將不會索引該頁面。儘管 robots.txt 檔案實際上不能強制執行這些規則,但善意機器人經過程式設計,會在執行任何其他操作之前先查找該檔案並遵守規則。

然而,惡意機器人通常會忽略 robots.txt 檔案或閱讀該檔案以瞭解網站試圖禁止機器人存取哪些內容,然後存取該內容。因此,管理機器人需要一種更主動的方法,而不是簡單地在 robots.txt 檔案中列出機器人行為規則。

什麼是允許清單?

可以將允許清單視為活動的來賓名單。如果不在來賓名單上的某人試圖進入活動場地,安全人員將阻止他們進入。名單上的任何人都可以自由參加活動。這樣的方法是必要的,因為不速之客可能會表現不佳並破壞其他人的聚會。

對於機器人管理,這基本上就是允許清單的運作方式。允許清單是允許存取 Web 資產的機器人清單。通常,這透過稱為「使用者代理」、機器人 IP 位址或兩者的結合來實現。使用者代理是向網頁伺服器標識使用者(或機器人)類型的文字字串。

透過確保清單允許善意機器人使用者代理(例如屬於搜尋引擎的機器人)並封鎖不在清單上的所有機器人,網頁伺服器可以確保善意機器人的存取。

網頁伺服器還可以擁有包含已知惡意機器人的封鎖清單。

什麼是封鎖清單?

在網路環境中,封鎖清單是不允許存取伺服器、網路或 Web 資產的 IP 位址、使用者代理或其他線上身分指標的清單。這種方法與使用允許清單略有不同:基於封鎖清單的機器人管理策略將封鎖這些特定機器人並允許所有其他機器人通過,而允許清單策略僅允許指定的機器人通過並封鎖所有其他機器人。

允許清單是否足以讓善意機器人進入並將惡意機器人拒之門外?

惡意機器人有可能偽造其使用者代理字串,從而至少在最初看起來像一個善意機器人——就像小偷可能使用假身分證假裝自己在來賓名單上並潛入活動場地一樣。

因此,善意機器人允許清單必須與其他方法相結合來偵測欺騙,例如行為分析或機器學習。除了簡單地允許已知的善意機器人之外,這還有助於主動識別惡意機器人和未知的善意機器人。

機器人管理器解決方案有什麼作用?

機器人管理器產品允許善意機器人存取 Web 資產,同時封鎖惡意機器人。Cloudflare 機器人管理使用機器學習和整個網路中流量的行為分析來偵測惡意機器人,同時自動並持續地允許將善意機器人列入允許清單。使用超級機器人抵禦模式的小型組織也可以使用類似的功能,該模式現已包含在 Cloudflare Pro 和 Business 方案中。