繁体   English   中英

Hadoop分布式文件系统与分布式缓存

[英]Hadoop Distributed file system vs distributed cache

Hadoop中的b / w分布式文件系统和分布式缓存有何区别?

诸如Hadoop分布式文件系统(HDFS)之类的分布式文件系统是一种体系结构,允许您将大文件(或更多文件)存储在许多计算机的硬盘中。 每台计算机都保存此文件的一部分(称为块)。 通常,每个块被复制多次(默认情况下为3次),以防某些机器崩溃。 在这种情况下,您可以通过从其他计算机上获取丢失的块来恢复丢失的块。 您的PC上也有一个文件系统 ,但是很可能不是分布式的。 这是您的文件在层次结构中进行组织和存储的地方。

分布式缓存是一种在作业运行时向所有计算机提供相同输入文件的方法。 该文件/这些文件已加载到这些计算机的内存中。 举例来说,假设您有一个停用词列表,这些词不希望您的单词计数程序计数。 然后,在每个MapReduce作业的开始,您都将这个停用词文件分发到所有地图任务,这些地图任务将读取该文件并跳过这些停用词的计数。 这样,所有任务共享一个公共输入文件。 作业完成后,没有分布式缓存...

我的回答在很多方面在技术上可能都不正确,但我希望它能给出适当的直觉。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM