什麼是 AI 資料投毒?

AI 資料投毒是指故意在 AI 模型的訓練資料中引入偏見,從而產生有偏見的輸出。

學習目標

閱讀本文後,您將能夠:

  • 說明 AI 資料投毒攻擊的運作方式
  • 描述 AI 和 LLM 資料投毒攻擊的類型
  • 列出資料投毒預防方法

相關內容


想要繼續瞭解嗎?

訂閱 TheNET,這是 Cloudflare 每月對網際網路上最流行見解的總結!

請參閱 Cloudflare 的隱私權政策,了解我們如何收集和處理您的個人資料。

複製文章連結

什麼是 AI 資料投毒?

人工智慧 (AI) 資料投毒是指攻擊者透過變更訓練資料來操縱 AI 或機器學習模型的輸出。攻擊者發動 AI 資料投毒攻擊的目標是讓模型在推斷過程中產生有偏見或危險的結果。

AI 和機器學習*模型有兩個主要成分:訓練資料和演算法。演算法就像汽車的引擎,訓練資料就像是作為引擎燃料的汽油:資料讓 AI 模型運轉起來。資料投毒攻擊就像有人在汽油中新增了額外的成分,導致汽車行駛不暢。

隨著越來越多的公司和個人開始在日常活動中依賴 AI,AI 資料投毒的潛在後果也變得更加嚴重。一次成功的 AI 資料投毒攻擊可以永久改變模型的輸出,從而使攻擊背後的人受益。

AI 資料投毒對於大型語言模型 (LLM) 而言尤其值得擔憂。資料投毒被列入 OWASP Top 10 for LLM 中,近年來,研究人員警告稱,資料投毒漏洞會影響醫療保健代碼產生文字產生模型。

*「機器學習」和「人工智慧」有時可以互換使用,但這兩個詞彙指的是兩組略有不同的運算功能。機器學習是人工智慧的一種類型。

資料投毒攻擊是如何發生的?

AI 開發人員使用大量資料來訓練他們的模型。本質上,訓練資料集為模型提供了範例,然後模型學習從這些範例中進行歸納總結。資料集中的範例越多,模型就越精細和準確——但前提是資料正確且相對無偏見。

資料投毒會故意在訓練資料集中引入偏見,改變模型演算法的起點,從而導致其結果與開發人員最初的預期不同。

想像一下,一位老師在黑板上寫下一道數學題讓學生們解答:例如,「47 * (18 + 5) = ?」。答案是 1,081。但如果有學生背著她偷偷把「47」改成「46」,那麼答案就不再是 1,081,而是 1,058。資料投毒攻擊就像那個鬼鬼祟祟的學生:如果起始資料稍有變化,答案也會跟著改變。

AI 資料投毒攻擊是如何發生的?

對訓練資料的未經授權變更可能來自多種來源。

內部人員攻擊:有權存取訓練資料的人可能會引入偏見、虛假資料或其他破壞輸出的變更。與未經授權存取資料的外部第三方的攻擊相比,這些攻擊更難偵測和阻止。

供應鏈攻擊:大多數 AI 和機器學習模型依賴于各種來源的資料集來訓練其模型。這些來源中的一個或多個可能包含「中毒的」資料,這些資料會影響使用該資料進行訓練和微調的所有模型。

未經授權的存取:攻擊者可以透過多種方式存取訓練資料集,從透過之前的攻擊進行橫向移動,到透過網路釣魚取得開發人員的認證,以及其間的多種潛在攻擊。

資料投毒攻擊有哪兩個主要類別?

  • 直接(或針對性)攻擊:這些攻擊旨在扭曲或改變模型在回應特定查詢或動作時的輸出。此類攻擊不會改變模型的其他部分,會對幾乎所有查詢都給出預期的回應。例如,攻擊者可能想要欺騙基於 AI 的電子郵件安全篩選器,使其允許某些惡意 URL 通過,而其他方面則按預期運作。
  • 間接(或非針對性)攻擊:這些攻擊旨在影響模型的整體效能。間接攻擊可能旨在降低整個模型的效能,或使其偏向於給出特定類型的答案。例如,外國對手可能希望使通用 LLM 偏向於在特定國家/地區散佈虛假資訊以達到宣傳目的。

AI 資料投毒攻擊有哪些類型?

攻擊者可以透過多種方式對 AI 模型的資料投毒,以達到自己的目的。需要瞭解的一些重要技術包括:

  • 後門程式中毒:這種攻擊會將隱藏的漏洞引入模型,因此,在回應攻擊者已知的某些特定觸發因素時,模型會以不安全的方式運作。後門程式中毒尤其危險,因為帶有隱藏後門程式的 AI 模型原本會正常運作。
  • 錯誤標記:攻擊者可以變更模型訓練資料集內資料的標記方式,導致模型在訓練後錯誤識別項目。
  • 資料插入和操縱:此類攻擊會改變、新增或移除資料集中的資料。這些攻擊旨在使 AI 模型偏向某個方向。
  • 可用性攻擊:此類攻擊的目的是透過插入降低模型整體效能的資料來減慢或破壞模型。

如何防止資料投毒

資料驗證:在訓練之前,應對資料集進行分析以識別惡意、可疑或異常資料。

最低權限原則:換句話說,只有絕對需要存取訓練資料的人員和系統才有權存取。最低權限原則Zero Trust 安全方法的核心原則,該方法有助於防止橫向移動和認證洩漏。

多樣化的資料來源:從更廣泛的來源獲取資料可以協助減少給定資料集中偏見的影響。

監控和稽核:追蹤並記錄變更訓練資料的人員、變更內容和變更時間,使開發人員能夠識別可疑模式,或者在資料集被投毒後追蹤攻擊者的活動。

對抗性訓練:這是指訓練 AI 模型識別故意的誤導性輸入。

防火牆等其他應用程式防禦措施也可套用至 AI 模型。為了防止資料投毒和其他攻擊,Cloudflare 提供了 Firewall for AI,可將其部署在 LLM 前方,以在濫用達到 LLM 之前識別並予以封鎖。進一步瞭解 Firewall for AI