繁体   English   中英

将文件添加到Hadoop分布式缓存

[英]adding a file to the Hadoop Distributed cache

我有一堆文件需要在我的mapper类中访问。 我的假设是,如果我将这些文件打包到我的作业jar文件中,则不需要将它们放入DistributedCache中,因为jar文件作为一个整体复制到了所有节点,并且在提取时这些文件将在那里? 我的假设正确吗? 如果不是,是否有将这些文件与我的jar文件一起运送,而不是将它们分别复制到HDFS的方法?

您可以将它们放入罐子中。 根据大小的大小,您将使用网络带宽。

使用分布式缓存也是很好的选择,可以发送文件,zip文件或jar文件。 运行Hadoop jar命令时,可以单独使用每个选项。 这些文件将仅移至任务节点,并可供应用程序jar使用。 移动jar文件(映射归约依赖jars)的一个区别是,它们将添加到mp reduce jar运行的类路径中。 对于其他文件和zip文件,它们只会被移动到任务节点。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM