有沒有更好的方法通過PySpark集群（dataporc）將spark df加載到BigQuery中？

Question

我目前正在使用以下代碼通過 PySpark 集群 (dataproc) 將數據加載到 BigQuery 中，但處理時間太長或因執行時間超出錯誤而終止。 有沒有更好更快的方法將 spark df 加載到 BigQuery 中？

output.write \
      .format("bigquery") \
      .option("table","{}.{}".format(bq_dataset, bq_table)) \
      .option("temporaryGcsBucket", gcs_bucket) \
      .mode('append') \
      .save()

下面是我的 dataproc 集群配置：

Master node : Standard (1 master, N workers)
Machine type : n1-standard-4
Number of GPUs : 0
Primary disk type : pd-standard
Primary disk size : 500GB
Worker nodes : 3
Machine type : n1-standard-4
Number of GPUs : 0
Primary disk type : pd-standard
Primary disk size : 500GB
Image version : 1.4.30-ubuntu18

Answer 1

請確保您使用的是最新版本的 SparkBigQueryConnector。

嘗試使用其他中間格式測試您的代碼，例如 avro、orc 和 parquet。 Avro 傾向於在處理更大的數據時表現更好。

如果您正在寫入的數據非常龐大，請嘗試添加更多工作人員或選擇不同的機器類型。

有沒有更好的方法通過PySpark集群（dataporc）將spark df加載到BigQuery中？

問題描述

1 個解決方案

解決方案1
2 2020-06-10 19:33:35

有沒有更好的方法通過PySpark集群（dataporc）將spark df加載到BigQuery中？

問題描述

1 個解決方案

解決方案1 2 2020-06-10 19:33:35

解決方案1
2 2020-06-10 19:33:35