繁体 English 中英

在 Apache Beam/Google Cloud Dataflow 上创建文件和数据流

[英]Creating a file and streaming in data on Apache Beam/Google Cloud Dataflow

原文 2022-02-18 16:34:10 2 1 google-cloud-dataflow/ apache-beam/ apache-beam-io

我没有为我的用例找到任何文档或任何其他问题/答案。 我想我会发布一个问题。

在 Apache Beam/Google Cloud Dataflow 上，我需要接收 PubSub 消息，根据此消息中的信息从 BigQuery 生成动态查询，从 BigQuery 中提取包含 batchID 的行，在 Google Cloud Storage 上为每个 batchID 创建一个文件，然后 stream batchID 文件的行。 对于每个 BigQuery 行（表示为 JSON 字符串），我会检查其 batchID，然后将其作为新行添加到正确的 batchID 文件中。

我想通了 PubSub 和 BigQuery 的东西。 我现在处于获得字符串 PCollection 的阶段（每个字符串都是来自 BigQuery 的一行；字符串按 batchID 分组）。

我想要：

查看每个字符串的 batchID，因为它进来了
如果此 batchID 的文件不存在，则创建一个新文件，否则，什么都不做
将每个字符串添加到与其 batchID 对应的文件中的新行

换句话说，我想为每个 batchID 和 stream 创建一个文件，当它们进入时，这些文件的字符串。我真的很想避免在 memory 中将所有 batchID 字符串聚合在一起（它可能是 GB 的数据）和然后写入文件。

1 个解决方案

您可以对GroupByKey执行 GroupByKey，然后遍历写入文件的值。 GroupByKey的可迭代对象不需要适合 memory。

请注意，如果您正在编写文件，您可能需要写入一个临时位置，然后重命名以使文件具有幂等性。

访问 PCollectionView 的元素<list<foo> >: 谷歌云数据流/Apache Beam </list<foo>

[英]Access elements of PCollectionView<List<Foo>> : Google Cloud Dataflow/Apache Beam

使用 Dataflow 和 Apache Beam (Python) 将 Pub/Sub 中的流数据发布到 BigQuery

[英]Issues streaming data from Pub/Sub into BigQuery using Dataflow and Apache Beam (Python)

Apache 光束中的开窗和水印：Google 数据流

[英]Windowing and Watermark in Apache beam : Google dataflow

是否可以在云数据流谷歌云平台中使用 apache 光束执行存储过程 MySQL Azure？

[英]Is possible to execute Stored Procedure MySQL Azure using apache beam in cloud dataflow google cloud platform?

Google Dataflow 和 Apache 光束：为什么使用 ValueProvider

[英]Google Dataflow and Apache beam: why ValueProvider

Spring Cloud Dataflow 与 Apache Beam/GCP 数据流说明

[英]Spring Cloud Dataflow vs Apache Beam/GCP Dataflow Clarification

流式 pubsub -bigtable 使用 apache 光束数据流 java

[英]Streaming pubsub -bigtable using apache beam dataflow java

Google Dataflow 上的 Apache Beam 示例的权限错误

[英]Permissions error with Apache Beam example on Google Dataflow

在 Google Cloud Dataflow 上运行的 Apache Beam 中禁用特定 class 的日志记录

[英]Disable logging from a specific class in Apache Beam running on Google Cloud Dataflow

一旦使用 apache 光束 sdk 在 Google Cloud 中创建数据流作业，我们可以从云存储桶中删除 tmp 文件吗？

[英]Once dataflow job is created in Google Cloud using apache beam sdk, can we delete the tmp files from cloud storage bucket?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 访问 PCollectionView 的元素<list<foo> >: 谷歌云数据流/Apache Beam </list<foo> 使用 Dataflow 和 Apache Beam (Python) 将 Pub/Sub 中的流数据发布到 BigQuery Apache 光束中的开窗和水印：Google 数据流是否可以在云数据流谷歌云平台中使用 apache 光束执行存储过程 MySQL Azure？ Google Dataflow 和 Apache 光束：为什么使用 ValueProvider Spring Cloud Dataflow 与 Apache Beam/GCP 数据流说明流式 pubsub -bigtable 使用 apache 光束数据流 java Google Dataflow 上的 Apache Beam 示例的权限错误在 Google Cloud Dataflow 上运行的 Apache Beam 中禁用特定 class 的日志记录一旦使用 apache 光束 sdk 在 Google Cloud 中创建数据流作业，我们可以从云存储桶中删除 tmp 文件吗？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM