[英]BigQuery to Hadoop Cluster - How to transfer data?
我有一個Google Analytics(分析)帳戶,該帳戶可跟蹤應用程序的用戶活動。 我設置了BigQuery,以便可以訪問原始GA數據。 每天都有數據從GA傳入BigQuery。
我有一個python應用,可通過編程方式查詢BigQuery API。 這個應用程式會根據我要查詢的內容給我所需的回應。
我的下一步是從BigQuery獲取數據並將其轉儲到Hadoop集群中。 我想理想地使用數據創建一個配置單元表。 我想圍繞python應用程序構建類似ETL流程的東西。 例如,每天,我運行etl進程,該進程運行python應用程序,還將數據導出到集群。
最終,此ETL流程應該放在Jenkins上,並且應該能夠在生產系統上運行。
在規划此ETL流程時,我需要考慮哪些架構/設計/一般因素?
關於我應該如何處理的任何建議? 我有興趣以最簡單和可行的方式做到這一點。
提前致謝。
從BigQuery遷移到Hadoop的最簡單方法是使用官方的Google BigQuery Connector for Hadoop
https://cloud.google.com/hadoop/bigquery-connector
該連接器定義了BigQueryInputFormat類。
(它使用Google Cloud Storage作為BigQuery數據和Hadoop消耗的拆分之間的中介)
看看Oozie 。 它似乎符合您的要求。 它具有工作流引擎,調度支持以及shell腳本和配置單元支持。
就安裝和部署而言,它通常是hadoop分發的一部分,但可以單獨安裝。 它具有db作為持久層的依賴項。 這可能需要一些額外的努力。
它具有Web UI和rest API。 如果需要,可以自動管理和監視作業。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.