簡體   English   中英

使用 Databricks 將數據寫入 Bigquery 時出錯 Pyspark

[英]Error writing data to Bigquery using Databricks Pyspark

我每天運行一項工作,使用 Databricks Pyspark 將數據寫入 BigQuery。最近更新了 Databricks ( https://docs.databricks.com/data/data-sources/google/bigquery.html ) 的配置,這導致了這項工作失敗。 我遵循了文檔中的所有步驟。 讀取數據再次工作但寫入會引發以下錯誤: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class com.google.cloud.hadoop.fs.gcs.GoogleHadoopFS not found

我也嘗試在代碼中添加配置(如 Spark 中的類似錯誤所建議的那樣),但它沒有幫助:

spark._jsc.hadoopConfiguration().set('fs.gs.impl', 'com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem')
spark._jsc.hadoopConfiguration().set('fs.gs.auth.service.account.enable', 'true')
spark._jsc.hadoopConfiguration().set('google.cloud.auth.service.account.json.keyfile', "<path-to-key.json>")

我的代碼是:

upload_table_dataset = 'testing_dataset'
upload_table_name = 'testing_table'
upload_table = upload_table_dataset + '.' + upload_table_name

(import_df.write.format('bigquery') 
  .mode('overwrite') 
  .option('project', 'xxxxx-test-project')
  .option('parentProject', 'xxxxx-test-project')
  .option('temporaryGcsBucket', 'xxxxx-testing-bucket') 
  .option('table', upload_table) 
  .save()
)

您需要先在集群上安裝 GCS 連接器

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM