繁体   English   中英

Hadoop分布式缓存-修改文件

[英]Hadoop Distributed Cache - modify file

我在分布式缓存中有一个文件。 驱动程序类基于作业的输出来更新此文件并开始新的作业。 新工作需要这些更新。

我目前的做法是用新的(更新的)替换旧的分布式缓存文件。

有没有一种方法可以将所有旧文件之间的差异(旧文件和新文件之间的差异)广播给所有需要该文件的任务跟踪器?

还是在完成一项工作(就我而言,第一个)之后,该工作所特有的所有目录/文件都被删除了,因此朝这个方向思考甚至毫无意义吗?

我认为在考虑这种情况时不会构建分布式缓存。 它只是将文件放在本地。
在您的情况下,我建议将文件放入HDFS中,并让所有感兴趣的各方从那里获取文件
作为优化,您可以为该文件提供较高的复制因子,并且该复制因子对于大多数任务而言都是本地的。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM