[英]De-identified data from BigQuery with DLP
我想使用 Google DLP 對已經在 BiqQuery 中的我的 PII 數據進行去標識化處理,並將結果存儲在 BigQuery 中的另一個表中。 那可能嗎? 以及如何做到這一點?
通過 API 可以獲得 DLP 中對敏感數據進行De- Indentifying 的不同方法,例如,我們可以使用replaceConfig
來替換:
我的 email 地址是 astacko@example.com。
至
我的 email 地址是 [email-address]。
通過使用這樣的 API 請求:
"deidentifyConfig":{
"infoTypeTransformations":{
"transformations":[
{
"infoTypes":[
{
"name":"EMAIL_ADDRESS"
}
],
"primitiveTransformation":{
"replaceConfig":{
"newValue":{
"stringValue":"[email-address]"
}
}
}
}
]
}
}
因此,對於您的用例,您需要將去識別 API 集成到從 BigQuery 讀取、執行去識別轉換並寫回 BigQuery 的流中。
Cloud DLP in action是一篇討論此問題的 Google 帖子。 它指出了 Dataflow 來實現這個用例。 請參考這個參考架構來了解它是如何工作的,在那里你會找到一些Java 類示例。 您可以根據需要對其進行修改,以便將其提取到 BigQuery。
作為一種快速解決方法,我會考慮將帶有 PII 的表移動到訪問受限的數據集中。 然后,在一個新數據集中,創建一個不包含敏感列的視圖。 僅授予用戶對具有視圖的數據集的查詢訪問權限,而不是私有數據集。
此功能目前處於預覽狀態(2022 年 10 月)。 與您的 Google Cloud 銷售代表聯系,看看它是否可以為您的項目啟用。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.