繁体   English   中英

在hadoop中更新分布式缓存中的文件

[英]updating file in distributed cache in hadoop

我们如何更新分布式缓存中的文件?

例如,我在分布式缓存中有一个属性文件。现在,我在属性文件中添加了一些其他值。

选项:

  1. 在旧文件中附加新值,然后重新启动作业。
  2. 用新文件替换旧文件,然后重新启动作业。
  3. 将新文件放置在新位置并指向该位置。

以上所有选项正确,为什么?

这需要了解分布式缓存的工作原理:将文件添加到分布式缓存时,在运行作业时,文件将复制到每个任务节点,并且该文件在本地可用。 由于它将创建多个副本:无法修改。

选项2和3听起来可行,但不确定这是否正确。

如果文件只有一堆属性,则可以在配置对象中设置这些属性,而不是在分布式缓存中设置文件。 您可以使用收集器将输出写入所需的位置。 (我不清楚您的用例,因此可能不合适)。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM