簡體   English   中英

BigQuery到Hadoop群集-如何傳輸數據?

[英]BigQuery to Hadoop Cluster - How to transfer data?

我有一個Google Analytics(分析)帳戶,該帳戶可跟蹤應用程序的用戶活動。 我設置了BigQuery,以便可以訪問原始GA數據。 每天都有數據從GA傳入BigQuery。

我有一個python應用,可通過編程方式查詢BigQuery API。 這個應用程式會根據我要查詢的內容給我所需的回應。

我的下一步是從BigQuery獲取數據並將其轉儲到Hadoop集群中。 我想理想地使用數據創建一個配置單元表。 我想圍繞python應用程序構建類似ETL流程的東西。 例如,每天,我運行etl進程,該進程運行python應用程序,還將數據導出到集群。

最終,此ETL流程應該放在Jenkins上,並且應該能夠在生產系統上運行。

在規划此ETL流程時,我需要考慮哪些架構/設計/一般因素?

關於我應該如何處理的任何建議? 我有興趣以最簡單和可行的方式做到這一點。

提前致謝。

從BigQuery遷移到Hadoop的最簡單方法是使用官方的Google BigQuery Connector for Hadoop

https://cloud.google.com/hadoop/bigquery-connector

該連接器定義了BigQueryInputFormat類。

  • 編寫查詢以選擇適當的BigQuery對象。
  • 在Hadoop節點之間平均分配查詢結果。
  • 將拆分解析為java對象,以傳遞給映射器。 Hadoop Mapper類接收每個選定BigQuery對象的JsonObject表示形式。

(它使用Google Cloud Storage作為BigQuery數據和Hadoop消耗的拆分之間的中介)

看看Oozie 它似乎符合您的要求。 它具有工作流引擎,調度支持以及shell腳本和配置單元支持。

就安裝和部署而言,它通常是hadoop分發的一部分,但可以單獨安裝。 它具有db作為持久層的依賴項。 這可能需要一些額外的努力。

它具有Web UI和rest API。 如果需要,可以自動管理和監視作業。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM