在 PySpark 中，有沒有辦法將憑據作為變量傳遞到 spark.read 中？

Question

Spark 允許我們直接從 Google BigQuery 讀取數據，如下所示：

df = spark.read.format("bigquery") \
  .option("credentialsFile", "googleKey.json") \
  .option("parentProject", "projectId") \
  .option("table", "project.table") \
  .load()

然而，將密鑰保存在虛擬機上並不是一個好主意。 我將 Google 密鑰安全地保存在憑據管理工具中，保存為 JSON。 密鑰按需讀取並保存到名為 googleKey 的變量中。

是否可以將 JSON 傳遞給 speak.read，或者將憑據作為字典傳遞？

Answer 1

另一個選項是credentials 。 來自spark-bigquery-connector 文檔：

如何在 GCE / Dataproc 之外進行身份驗證？

憑據也可以顯式提供，作為參數或從 Spark 運行時配置。 它們應該直接作為 base64 編碼的字符串傳入。
 // Globally spark.conf.set("credentials", "<SERVICE_ACCOUNT_JSON_IN_BASE64>") // Per read/Write spark.read.format("bigquery").option("credentials", "<SERVICE_ACCOUNT_JSON_IN_BASE64>")

Answer 2

這更像是先有雞還是先有蛋的情況。 如果您將憑證文件存儲在秘密管理器中（希望這不是您的憑證管理器工具）。 您將如何訪問秘密管理器。 為此，您可能需要密鑰以及將該密鑰存儲在哪里。

為此，Azure 創建了一個托管身份，兩個不同的服務可以通過它相互通信，而無需顯式提供任何密鑰（憑據）。

Answer 3

如果您從 Dataproc 運行，則該節點有一個內置服務帳戶，您可以在創建集群時控制該帳戶。 在這種情況下，您不需要傳遞任何 credentials/credentialsFile 選項。

如果您在另一個雲或本地運行，您可以使用本地秘密管理器，或實施連接器的 AccessTokenProvider，它允許您完全自定義憑據創建。

在 PySpark 中，有沒有辦法將憑據作為變量傳遞到 spark.read 中？

問題描述

3 個解決方案

解決方案1
0 2022-09-22 16:16:52

解決方案2
0 2022-09-22 18:00:09

解決方案3
0 2022-10-05 15:23:48

在 PySpark 中，有沒有辦法將憑據作為變量傳遞到 spark.read 中？

問題描述

3 個解決方案

解決方案1 0 2022-09-22 16:16:52

解決方案2 0 2022-09-22 18:00:09

解決方案3 0 2022-10-05 15:23:48

解決方案1
0 2022-09-22 16:16:52

解決方案2
0 2022-09-22 18:00:09

解決方案3
0 2022-10-05 15:23:48