簡體   English   中英

使用 DLP 從 BigQuery 中去除身份信息

[英]De-identified data from BigQuery with DLP

我想使用 Google DLP 對已經在 BiqQuery 中的我的 PII 數據進行去標識化處理,並將結果存儲在 BigQuery 中的另一個表中。 那可能嗎? 以及如何做到這一點?

通過 API 可以獲得 DLP 中對敏感數據進行De- Indentifying 的不同方法,例如,我們可以使用replaceConfig來替換:

我的 email 地址是 astacko@example.com。

我的 email 地址是 [email-address]。

通過使用這樣的 API 請求:

"deidentifyConfig":{
    "infoTypeTransformations":{
      "transformations":[
        {
          "infoTypes":[
            {
              "name":"EMAIL_ADDRESS"
            }
          ],
          "primitiveTransformation":{
            "replaceConfig":{
              "newValue":{
                "stringValue":"[email-address]"
              }
            }
          }
        }
      ]
    }
  }

因此,對於您的用例,您需要將去識別 API 集成到從 BigQuery 讀取、執行去識別轉換並寫回 BigQuery 的流中。

Cloud DLP in action是一篇討論此問題的 Google 帖子。 它指出了 Dataflow 來實現這個用例。 請參考這個參考架構來了解它是如何工作的,在那里你會找到一些Java 類示例 您可以根據需要對其進行修改,以便將其提取到 BigQuery。

作為一種快速解決方法,我會考慮將帶有 PII 的表移動到訪問受限的數據集中。 然后,在一個新數據集中,創建一個不包含敏感列的視圖。 僅授予用戶對具有視圖的數據集的查詢訪問權限,而不是私有數據集。

https://cloud.google.com/bigquery/docs/share-access-views

此功能目前處於預覽狀態(2022 年 10 月)。 與您的 Google Cloud 銷售代表聯系,看看它是否可以為您的項目啟用。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM