什麼是擬匿名化?

擬匿名化用別名代替個人資訊,使資料集更加私密。除非將假名資料與一組單獨的資訊相結合,否則無法將假名資料與可識別的人匹配。

學習目標

閱讀本文後,您將能夠:

  • 定義擬匿名化
  • 說明擬匿名化的運作原理
  • 說明為什麼 GDPR 不要求擬匿名化
  • 對比擬匿名化與匿名化

相關內容


想要繼續瞭解嗎?

訂閱 TheNET,這是 Cloudflare 每月對網際網路上最流行見解的總結!

請參閱 Cloudflare 的隱私權政策,了解我們如何收集和處理您的個人資料。

複製文章連結

什麼是擬匿名化?

擬匿名化是從資料中移除個人識別碼並用預留位置值替換這些識別碼的過程。它有時用於保護個人隱私或提高資料安全性。結合其他重要的隱私保護措施(例如加密),擬匿名化可以幫助維護使用者隱私。

一般來說,「假名」是用來隱藏身分的假名稱。例如,許多書籍作者使用假名或「筆名」。資料擬匿名化有點像這個概念,但假名值通常不公開使用。同樣重要的是要注意,不只是個人姓名,任何個人資訊都可以擬匿名化。

擬匿名化如何運作?

想像一下 Alice 在串流媒體服務上建立了一個帳戶。作為註冊過程的一部分,串流服務將她的名字儲存在他們的資料庫中。但是,該服務並未在其個人記錄資料庫(我們稱之為資料庫 1)中將她記錄為「Alice」,而是使用擬匿名化將「Alice」變更為「Person 17332」。

資料庫 1:

姓名 帳戶類型
Person 17332 正式會員
Person 12348 免費試用
Person 74738 VIP 會員
Person 78383 正式會員

姓名及其對應假名的清單保存在一個單獨的資料庫中(我們稱之為資料庫 2)。只能存取資料庫 1 的人將能夠檢視假名資料,但無法將該資料與特定個人(例如 Alice)進行匹配。要進行匹配,他們還需要存取資料庫 2,即姓名和假名清單。

資料庫 2:

姓名 假名
Alice Person 17332
Bob Person 12348
Carlos Person 74738
David Person 78383

現在想像一下,該串流服務的流氓員工 Chuck 竊取了資料庫 1。他分析了資料,但無法驗證任何使用者的身分,因為假名清單是單獨儲存的。除非他也竊取資料庫 2,否則他無法利用竊取的資料做太多事情。

透過這種方式,擬匿名化有助於保護隱私並增強安全性。但是,仍然可以透過多種方式識別某人。如果識別資料沒有單獨儲存,則可以識別個人——例如,如果 Chuck 也竊取了資料庫 2,他可以很容易地透過姓名識別 Alice。此外,通常可以透過將資料與其他外部資料來源相結合來識別擬匿名化資料中的個人(想像一下,如果 Alice 在社交媒體上發布了關於在串流服務上擁有正式會員資格的訊息)。

因此,擬匿名化需要與其他程序和技術相結合才能保持資料的私密性。例如:假設該串流服務使用加密來保護資料庫 1 和 2,而不僅僅是擬匿名化。如果 Chuck 竊取了這兩個資料庫,那麼他現在只能看到:

資料庫 1:

姓名 帳戶類型
P0kOFAw20PHbOnT7oXXvlm4
lfOkGbahX+1XCv1VECrE=
nm+nauwi7eePi7ZKJH0sIeV
LbxBJgixIdL1sOXvsUnw=
88X5ceFkvcYjG+WxROkAT6X
Lh8wuqc3NctBP7mkIAYM=
w+1iufZv3OrLPb7sESpeNIu
5kzX4IVaNYz7DhpSeFKo=
Zh3MZza5QM0Q+BtNGBx7eel
MafyehzZBv5I2zdodp8E=
CGDoLDA7X/poEyTI+UWa8mu
C9bjmbMfAmwhrNZbjUbc=
WbAJpSq+GRuaVK5Qogdfa2t
WYQq2Ge2GiS1zJsmUOG8=
nm+nauwi7eePi7ZKJH0sIeV
LbxBJgixIdL1sOXvsUnw=

資料庫 2:

姓名 假名
lenaV3sVToJ8FdDHNwLIMed
0AN5I+P7KSrN3nKj8WN8=
P0kOFAw20PHbOnT7oXXvlm4
lfOkGbahX+1XCv1VECrE=
srS9OH6GK4qa33jgZx+24ZJ
ghF1BZE9Agc825l1c0lA=
88X5ceFkvcYjG+WxROkAT6X
Lh8wuqc3NctBP7mkIAYM=
ddbqSa7o561pBZzFHebo2LZ
vKrgWCKj7XM1n10/waw8=
Zh3MZza5QM0Q+BtNGBx7eel
MafyehzZBv5I2zdodp8E=
TKtTr4dDNRd+yb6f4DzUlrg
hC10OgUXlkR0X8wzkzJw=
WbAJpSq+GRuaVK5Qogdfa2t
WYQq2Ge2GiS1zJsmUOG8=

出於這個原因,加密針對 Chuck 之類窺探者提供了更強的保護。瞭解有關隱私和加密的更多資訊。

GDPR 是否要求擬匿名化?

《一般資料保護規定》(GDPR) 提到擬匿名化是可用來保護個人資料的一種方法,但對其使用並未作要求。擬匿名化不能保證隱私得到保護,也不能保證一個組織避免違反 GDPR。

事實上,GDPR 仍然將擬匿名化資料視為個人資料,因為它可以透過新增額外其他資訊與個人相關聯。(在上面的範例中,可以透過新增來自資料庫 2 的資訊來識別 Alice 在資料庫 1 中的會員級別。)GDPR 指出:

「經過擬匿名化的個人資料,如果可以透過使用其他資訊而找到所屬的自然人,則應被視為可識別自然人的資訊。」

因此,雖然擬匿名化有助於保護資料,但僅靠其本身不足以維護隱私或 GDPR 合規性。

擬匿名化和匿名化之間有什麼區別?

匿名化使資料完全匿名。識別資訊被完全剝離,且與擬匿名化不同,在理想情況下,該過程不能逆轉。如果上面範例中的資料是匿名的,那麼所有可以識別 Alice 的資訊(比如她的名字)都會從資料庫中移除,而不是被替換為假名:

姓名 帳戶類型
******** 正式會員
******** 免費試用
******** VIP 會員
******** 正式會員

資料匿名化有助於保護隱私,但並非總是可行或可能。如果範例中的串流服務無法將帳戶與特定人員相關聯,他們將根本無法提供服務。

但是,在某些情況下,匿名化更可取。例如,醫學研究人員有時會使用匿名的彙總醫療資料來保護隱私。此外,匿名資料仍然可以提供有價值的見解——例如,一些 Web 分析服務會匿名化他們的資料。

但即使是匿名資料也可能無法完全保護使用者隱私。透過將匿名資料與其他資料集相結合、查看資料的上下文或使用其他幾種方法,有時可以將匿名資料與特定的人相關聯。即使是匿名的個人資料也需要透過加密、存取控制和其他保護措施來防止侵犯隱私。