使用 Databricks 將數據寫入 Bigquery 時出錯 Pyspark

Question

我每天運行一項工作，使用 Databricks Pyspark 將數據寫入 BigQuery。最近更新了 Databricks ( https://docs.databricks.com/data/data-sources/google/bigquery.html ) 的配置，這導致了這項工作失敗。 我遵循了文檔中的所有步驟。 讀取數據再次工作但寫入會引發以下錯誤： java.lang.RuntimeException: java.lang.ClassNotFoundException: Class com.google.cloud.hadoop.fs.gcs.GoogleHadoopFS not found

我也嘗試在代碼中添加配置（如 Spark 中的類似錯誤所建議的那樣），但它沒有幫助：

spark._jsc.hadoopConfiguration().set('fs.gs.impl', 'com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem')
spark._jsc.hadoopConfiguration().set('fs.gs.auth.service.account.enable', 'true')
spark._jsc.hadoopConfiguration().set('google.cloud.auth.service.account.json.keyfile', "<path-to-key.json>")

我的代碼是：

upload_table_dataset = 'testing_dataset'
upload_table_name = 'testing_table'
upload_table = upload_table_dataset + '.' + upload_table_name

(import_df.write.format('bigquery') 
  .mode('overwrite') 
  .option('project', 'xxxxx-test-project')
  .option('parentProject', 'xxxxx-test-project')
  .option('temporaryGcsBucket', 'xxxxx-testing-bucket') 
  .option('table', upload_table) 
  .save()
)

Answer 1

您需要先在集群上安裝 GCS 連接器

使用 Databricks 將數據寫入 Bigquery 時出錯 Pyspark

問題描述

1 個解決方案

解決方案1
0 2022-03-24 22:36:54

使用 Databricks 將數據寫入 Bigquery 時出錯 Pyspark

問題描述

1 個解決方案

解決方案1 0 2022-03-24 22:36:54

解決方案1
0 2022-03-24 22:36:54