[英]Apache Beam - Dataflow - Serialization & state sharing
在我的DoFn
的DoFn
,我正在下载二进制文件,该文件需要由另一个DoFn
处理。 现在,一旦下载了二进制文件,我还将其存储在GCS中,并将文件的位置输出到下游DoFn
。 但是,上传到GCS需要花费很长时间,我甚至不确定我是否需要。
有没有办法使我的二进制缓冲区可用于下游DoFn
而无需任何序列化? 我基本上希望工作人员在同一台计算机上,并通过RAM共享数据。 那可能吗 ?
如果没有,我在使用GCS在DoFNs
之间共享数据时会错吗? 我们可以直接使用文件系统吗?
此处的最佳实践是将数据直接作为字节数组值传递。 框架应正确处理在不包含中间GroupByKey的融合阶段之间在内存中传递缓冲区。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.