繁体   English   中英

从Google数据存储到BigQuery的数据流多次更新

[英]Update a row multiple time when data stream from Google Datastore to BigQuery

我们正在尝试将数据存储实体更新作为流输入推送到BigQuery,以提供实时数据分析。

数据存储区中的每个实体将在一天内多次更新。 当我们推送实体时,我需要确保只有最新数据才应该存储到bigquery记录中。 我该如何存档?

据我所知,没有从Datastore到BigQuery的内置流式传输路径。 支持进行数据存储备份(导出到Cloud Storage)并将备份与加载作业一起加载到BigQuery中。

除了使用作业将数据加载到BigQuery中之外,您还可以选择使用tabledata()。insertAll()方法一次将数据流式传输到BigQuery中的一条记录中。 这种方法可以查询数据,而不会延迟运行加载作业。

通常,在第一次将流插入表中后的几秒钟内,就可以对流数据进行实时分析。 但是,流缓冲区中的数据可能暂时不可用。 当数据不可用时,查询将继续成功运行,但是它们会跳过一些仍在流缓冲区中的数据。

有关更多详细信息,您可以检查以下链接:

链接1 链接2

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM