繁体   English   中英

BigQuery到Hadoop群集-如何传输数据?

[英]BigQuery to Hadoop Cluster - How to transfer data?

我有一个Google Analytics(分析)帐户,该帐户可跟踪应用程序的用户活动。 我设置了BigQuery,以便可以访问原始GA数据。 每天都有数据从GA传入BigQuery。

我有一个python应用,可通过编程方式查询BigQuery API。 这个应用程式会根据我要查询的内容给我所需的回应。

我的下一步是从BigQuery获取数据并将其转储到Hadoop集群中。 我想理想地使用数据创建一个配置单元表。 我想围绕python应用程序构建类似ETL流程的东西。 例如,每天,我运行etl进程,该进程运行python应用程序,还将数据导出到集群。

最终,此ETL流程应该放在Jenkins上,并且应该能够在生产系统上运行。

在规划此ETL流程时,我需要考虑哪些架构/设计/一般因素?

关于我应该如何处理的任何建议? 我有兴趣以最简单和可行的方式做到这一点。

提前致谢。

从BigQuery迁移到Hadoop的最简单方法是使用官方的Google BigQuery Connector for Hadoop

https://cloud.google.com/hadoop/bigquery-connector

该连接器定义了BigQueryInputFormat类。

  • 编写查询以选择适当的BigQuery对象。
  • 在Hadoop节点之间平均分配查询结果。
  • 将拆分解析为java对象,以传递给映射器。 Hadoop Mapper类接收每个选定BigQuery对象的JsonObject表示形式。

(它使用Google Cloud Storage作为BigQuery数据和Hadoop消耗的拆分之间的中介)

看看Oozie 它似乎符合您的要求。 它具有工作流引擎,调度支持以及shell脚本和配置单元支持。

就安装和部署而言,它通常是hadoop分发的一部分,但可以单独安装。 它具有db作为持久层的依赖项。 这可能需要一些额外的努力。

它具有Web UI和rest API。 如果需要,可以自动管理和监视作业。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM