繁体   English   中英

Apache Beam-数据流-序列化和状态共享

[英]Apache Beam - Dataflow - Serialization & state sharing

在我的DoFnDoFn ,我正在下载二进制文件,该文件需要由另一个DoFn处理。 现在,一旦下载了二进制文件,我还将其存储在GCS中,并将文件的位置输出到下游DoFn 但是,上传到GCS需要花费很长时间,我甚至不确定我是否需要。

有没有办法使我的二进制缓冲区可用于下游DoFn而无需任何序列化? 我基本上希望工作人员在同一台计算机上,并通过RAM共享数据。 那可能吗 ?

如果没有,我在使用GCS在DoFNs之间共享数据时会错吗? 我们可以直接使用文件系统吗?

此处的最佳实践是将数据直接作为字节数组值传递。 框架应正确处理在不包含中间GroupByKey的融合阶段之间在内存中传递缓冲区。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM