[英]Error when writing pyspark df to BigQuery from Databricks
[英]Error writing data to Bigquery using Databricks Pyspark
我每天運行一項工作,使用 Databricks Pyspark 將數據寫入 BigQuery。最近更新了 Databricks ( https://docs.databricks.com/data/data-sources/google/bigquery.html ) 的配置,這導致了這項工作失敗。 我遵循了文檔中的所有步驟。 讀取數據再次工作但寫入會引發以下錯誤: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class com.google.cloud.hadoop.fs.gcs.GoogleHadoopFS not found
我也嘗試在代碼中添加配置(如 Spark 中的類似錯誤所建議的那樣),但它沒有幫助:
spark._jsc.hadoopConfiguration().set('fs.gs.impl', 'com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem')
spark._jsc.hadoopConfiguration().set('fs.gs.auth.service.account.enable', 'true')
spark._jsc.hadoopConfiguration().set('google.cloud.auth.service.account.json.keyfile', "<path-to-key.json>")
我的代碼是:
upload_table_dataset = 'testing_dataset'
upload_table_name = 'testing_table'
upload_table = upload_table_dataset + '.' + upload_table_name
(import_df.write.format('bigquery')
.mode('overwrite')
.option('project', 'xxxxx-test-project')
.option('parentProject', 'xxxxx-test-project')
.option('temporaryGcsBucket', 'xxxxx-testing-bucket')
.option('table', upload_table)
.save()
)
您需要先在集群上安裝 GCS 連接器
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.