簡體   English   中英

Bigquery 作為 Dataproc 的元存儲

[英]Bigquery as metastore for Dataproc

我們正在嘗試將 pyspark 腳本從內部部署遷移到 GCP 平台,該腳本在 Hive 中創建和刪除表,並進行數據轉換。

Hive 被 BigQuery 取代。 在這種情況下,hive 次讀寫將使用 spark-bigquery-connector 轉換為 bigquery 讀寫。

然而,問題在於通過 spark sql 創建和刪除 bigquery 表,因為 spark sql 將默認在 hive 上運行創建和刪除查詢,由 hive 元存儲支持,而不是在大查詢上。

我想檢查是否有計划合並 DDL 語句支持以及 spark-bigquery-connector 的一部分。

此外,從架構的角度來看,是否可以將 spark sql 的元存儲基於 bigquery,以便任何創建或刪除語句都可以在 spark 的 bigquery 上運行。

我不認為 Spark SQL 將支持 BigQuery 作為 Metastore,BQ 連接器也不支持 BQ DDL。 在 Dataproc 上, Dataproc Metastore (DPMS)是 Hive 和 Spark SQL Metastore 的推薦解決方案。

特別是,對於從 no-prem 到 Dataproc 的遷移,遷移到 DPMS 更直接,請參閱此文檔

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM