[英]Google Cloud Dataflow can't import 'google.cloud.datastore'
[英]Google Cloud Dataflow ETL (Datastore -> Transform -> BigQuery)
我们使用数据存储作为持久性后端在Google App Engine上运行应用程序。 目前,应用程序主要具有“OLTP”功能和一些初步报告。 在实施报告时,我们遇到使用数据存储区和GQL处理大量数据(数百万个对象)非常困难。 为了使用适当的报告和商业智能功能增强我们的应用程序,我们认为最好设置ETL过程以将数据从Datastore移动到BigQuery。
最初我们考虑将ETL过程实现为App Engine cron作业,但看起来Dataflow也可用于此。 我们有以下设置流程的要求
我的问题是
问题是这两种方法可行吗? 哪一个更好的成本? 有没有比上面两个更好的其他方式?
谢谢,
rizTaak
数据流绝对可以用于此目的。 实际上,Dataflow的可扩展性应该使流程快速且相对容易。
你的两种方法都应该有效 - 我会优先考虑使用批处理管道来移动现有数据,然后通过Cloud Pub / Sub处理新数据的流管道。 除数据移动外,Dataflow还允许对数据本身执行任意分析/操作。
也就是说,BigQuery和Datastore可以直接连接。 例如,请参阅BigQuery文档中的从云数据存储区加载数据 。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.