簡體 English 中英

BigQuery到Hadoop群集-如何傳輸數據？

[英]BigQuery to Hadoop Cluster - How to transfer data?

原文 2015-01-13 21:43:39 7 2 python/ hadoop/ google-analytics/ google-bigquery/ etl

我有一個Google Analytics（分析）帳戶，該帳戶可跟蹤應用程序的用戶活動。 我設置了BigQuery，以便可以訪問原始GA數據。 每天都有數據從GA傳入BigQuery。

我有一個python應用，可通過編程方式查詢BigQuery API。 這個應用程式會根據我要查詢的內容給我所需的回應。

我的下一步是從BigQuery獲取數據並將其轉儲到Hadoop集群中。 我想理想地使用數據創建一個配置單元表。 我想圍繞python應用程序構建類似ETL流程的東西。 例如，每天，我運行etl進程，該進程運行python應用程序，還將數據導出到集群。

最終，此ETL流程應該放在Jenkins上，並且應該能夠在生產系統上運行。

在規划此ETL流程時，我需要考慮哪些架構/設計/一般因素？

關於我應該如何處理的任何建議？ 我有興趣以最簡單和可行的方式做到這一點。

提前致謝。

2 個解決方案

從BigQuery遷移到Hadoop的最簡單方法是使用官方的Google BigQuery Connector for Hadoop

https://cloud.google.com/hadoop/bigquery-connector

該連接器定義了BigQueryInputFormat類。

編寫查詢以選擇適當的BigQuery對象。
在Hadoop節點之間平均分配查詢結果。
將拆分解析為java對象，以傳遞給映射器。 Hadoop Mapper類接收每個選定BigQuery對象的JsonObject表示形式。

（它使用Google Cloud Storage作為BigQuery數據和Hadoop消耗的拆分之間的中介）

看看Oozie 。 它似乎符合您的要求。 它具有工作流引擎，調度支持以及shell腳本和配置單元支持。

就安裝和部署而言，它通常是hadoop分發的一部分，但可以單獨安裝。 它具有db作為持久層的依賴項。 這可能需要一些額外的努力。

它具有Web UI和rest API。 如果需要，可以自動管理和監視作業。

如何使用 Python 創建 BigQuery 數據傳輸服務

[英]How to create BigQuery Data Transfer Service using Python

如何使用 Python + 服務帳戶創建 BigQuery 數據傳輸？

[英]How to create BigQuery Data Transfer w/ Python + Service Account?

BigQuery數據傳輸服務-python客戶端庫

[英]BigQuery Data Transfer Services - python client library

如何使用Hadoop Streaming在本地Hadoop集群中運行MRJob？

[英]How to run a MRJob in a local Hadoop Cluster with Hadoop Streaming?

如何使用python API Pydoop從Hadoop集群中獲取實際數據（在縮小地圖后）？

[英]How do I get the actual data from Hadoop cluster (after map reducing) using the python API Pydoop?

如何使用bigquery_datatransfer Python客戶端創建AdWords BigQuery傳輸和傳輸運行？

[英]How do you create a Adwords BigQuery Transfer and Transfer Runs using the bigquery_datatransfer Python client?

在 python 中使用谷歌數據流進行 Bigquery 到 Bigtable 的數據傳輸

[英]Bigquery to Bigtable data transfer using google dataflow in python

使用 Google Cloud Functions 在兩個 BigQuery 項目之間傳輸數據

[英]Data Transfer between two BigQuery Projects using Google Cloud Functions

檢查Hadoop集群是否存在

[英]Check if Hadoop cluster exists

如何在 hadoop 集群上運行 xgboost 進行分布式模型訓練？

[英]How one can run xgboost on hadoop cluster for distributed model training?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何使用 Python 創建 BigQuery 數據傳輸服務如何使用 Python + 服務帳戶創建 BigQuery 數據傳輸？ BigQuery數據傳輸服務-python客戶端庫如何使用Hadoop Streaming在本地Hadoop集群中運行MRJob？如何使用python API Pydoop從Hadoop集群中獲取實際數據（在縮小地圖后）？如何使用bigquery_datatransfer Python客戶端創建AdWords BigQuery傳輸和傳輸運行？在 python 中使用谷歌數據流進行 Bigquery 到 Bigtable 的數據傳輸使用 Google Cloud Functions 在兩個 BigQuery 項目之間傳輸數據檢查Hadoop集群是否存在如何在 hadoop 集群上運行 xgboost 進行分布式模型訓練？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM