繁体   English   中英

为每个映射器hadoop在内存中加载相同的文件

[英]Loading the same file in memory for each mapper hadoop

我遇到了一种算法,其中,每个映射器都将相同的文件加载到主存储器中。

我认为,对于每个映射器,我们必须使用分布式缓存来获取文件,读取文件并将其加载到内存中。 实施此操作后,我发现地图需要很长时间才能完成。 我假设这是因为,每次从本地磁盘读取每个映射器值时都会读取文件。

我执行正确吗?

还有其他建议吗?

请帮助! 提前致谢!

您要在Mapper setup()方法中从本地磁盘读取。 使用实例变量来保留引用。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM