需要管理的不僅僅是惡意機器人。機器人管理策略需要避免封鎖善意機器人,同時減少惡意機器人。
閱讀本文後,您將能夠:
複製文章連結
機器人是一種電腦程式,可透過網際網路自動與 Web 資產進行互動。「善意」機器人是執行有用任務的機器人,這些任務不會損害使用者在網際網路上的體驗。由於善意機器人可能與惡意機器人具備相似的特徵,因此現有的挑戰是確保在制定機器人管理策略時不會封鎖善意機器人。
有多種善意機器人,每一種都設計用於完成不同的任務。以下是一些範例:
Web 資產需要確保它們在嘗試篩選掉惡意機器人流量時不會封鎖這些類型的機器人。不要封鎖搜尋引擎網路爬蟲機器人,這一點尤為重要,因為沒有它們,網站就無法顯示在搜尋結果中。
惡意機器人可以竊取資料、入侵使用者帳戶、透過線上表單提交垃圾資料以及執行其他惡意活動。惡意機器人的類型包括認證填充機器人、內容剽竊機器人、垃圾內容機器人和點擊欺詐機器人。
善意機器人管理始於在網站的 robots.txt 檔案中正確設定規則。robots.txt 檔案是駐留在 Web 伺服器上的文字檔案,它為所有存取託管網站或應用程式的機器人指定規則。這些規則定義了機器人可以爬行和不能爬行的頁面、它們應該和不應該進入的連結以及其他機器人行為要求。
善意機器人會遵循這些規則。例如,如果網站擁有者不希望其網站上的某個頁面顯示在 Google 搜尋結果中,他們可以在 robots.txt 檔案中編寫規則,Google 網路爬蟲機器人將不會索引該頁面。儘管 robots.txt 檔案實際上不能強制執行這些規則,但善意機器人經過程式設計,會在執行任何其他操作之前先查找該檔案並遵守規則。
然而,惡意機器人通常會忽略 robots.txt 檔案或閱讀該檔案以瞭解網站試圖禁止機器人存取哪些內容,然後存取該內容。因此,管理機器人需要一種更主動的方法,而不是簡單地在 robots.txt 檔案中列出機器人行為規則。
可以將允許清單視為活動的來賓名單。如果不在來賓名單上的某人試圖進入活動場地,安全人員將阻止他們進入。名單上的任何人都可以自由參加活動。這樣的方法是必要的,因為不速之客可能會表現不佳並破壞其他人的聚會。
對於機器人管理,這基本上就是允許清單的運作方式。允許清單是允許存取 Web 資產的機器人清單。通常,這透過稱為「使用者代理」、機器人 IP 位址或兩者的結合來實現。使用者代理是向網頁伺服器標識使用者(或機器人)類型的文字字串。
透過確保清單允許善意機器人使用者代理(例如屬於搜尋引擎的機器人)並封鎖不在清單上的所有機器人,網頁伺服器可以確保善意機器人的存取。
網頁伺服器還可以擁有包含已知惡意機器人的封鎖清單。
在網路環境中,封鎖清單是不允許存取伺服器、網路或 Web 資產的 IP 位址、使用者代理或其他線上身分指標的清單。這種方法與使用允許清單略有不同:基於封鎖清單的機器人管理策略將封鎖這些特定機器人並允許所有其他機器人通過,而允許清單策略僅允許指定的機器人通過並封鎖所有其他機器人。
惡意機器人有可能偽造其使用者代理字串,從而至少在最初看起來像一個善意機器人——就像小偷可能使用假身分證假裝自己在來賓名單上並潛入活動場地一樣。
因此,善意機器人允許清單必須與其他方法相結合來偵測欺騙,例如行為分析或機器學習。除了簡單地允許已知的善意機器人之外,這還有助於主動識別惡意機器人和未知的善意機器人。
機器人管理器產品允許善意機器人存取 Web 資產,同時封鎖惡意機器人。Cloudflare 機器人管理使用機器學習和整個網路中流量的行為分析來偵測惡意機器人,同時自動並持續地允許將善意機器人列入允許清單。使用超級機器人抵禦模式的小型組織也可以使用類似的功能,該模式現已包含在 Cloudflare Pro 和 Business 方案中。