[英]Can I process pcollections in apache beam in chunks? Can I make batches of pcollection and process each batch separately?
[英]Can an Apache Beam batch process be restarted from a checkpoint?
我在Google Cloud Dataflow上有一个长期运行的Apache Beam批处理分析过程,但此过程一直失败。 为了节省时间和成本,是否可以更新我的代码以处理故障,并使用缓存的中间检查点从故障点重新运行?
当数据流终止(成功或失败)时,数据流批处理流水将丢弃所有中间结果。
当前,您需要在实现中间数据的管道中添加点,然后在失败时可以启动新管道,该管道是现有管道的子集,该管道读取中间结果并继续进行处理。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.