[英]BigQuery to Hadoop Cluster - How to transfer data?
我有一个Google Analytics(分析)帐户,该帐户可跟踪应用程序的用户活动。 我设置了BigQuery,以便可以访问原始GA数据。 每天都有数据从GA传入BigQuery。
我有一个python应用,可通过编程方式查询BigQuery API。 这个应用程式会根据我要查询的内容给我所需的回应。
我的下一步是从BigQuery获取数据并将其转储到Hadoop集群中。 我想理想地使用数据创建一个配置单元表。 我想围绕python应用程序构建类似ETL流程的东西。 例如,每天,我运行etl进程,该进程运行python应用程序,还将数据导出到集群。
最终,此ETL流程应该放在Jenkins上,并且应该能够在生产系统上运行。
在规划此ETL流程时,我需要考虑哪些架构/设计/一般因素?
关于我应该如何处理的任何建议? 我有兴趣以最简单和可行的方式做到这一点。
提前致谢。
从BigQuery迁移到Hadoop的最简单方法是使用官方的Google BigQuery Connector for Hadoop
https://cloud.google.com/hadoop/bigquery-connector
该连接器定义了BigQueryInputFormat类。
(它使用Google Cloud Storage作为BigQuery数据和Hadoop消耗的拆分之间的中介)
看看Oozie 。 它似乎符合您的要求。 它具有工作流引擎,调度支持以及shell脚本和配置单元支持。
就安装和部署而言,它通常是hadoop分发的一部分,但可以单独安装。 它具有db作为持久层的依赖项。 这可能需要一些额外的努力。
它具有Web UI和rest API。 如果需要,可以自动管理和监视作业。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.