繁体   English   中英

Hadoop中的小文件与随机播放时间-调整

[英]Small files in Hadoop vs Shuffle Time - Tunning

处理这么多小文件时,减少和调整随机播放时间的更好方法是什么?

由于其他一些限制和要求,我无法减少小文件的数量,并且我知道处理小文件的问题。 但是我想知道这里还有哪些其他选项可以用来减少给定MapReduce作业的随机播放时间?

对于一个MapReduce作业,我得到如下信息:

Average Map Time    33sec
Average Reduce Time 10sec
Average Shuffle Time    1hrs, 10mins, 18sec
Average Merge Time  2sec 

我想知道还有其他选择可以减少这种洗牌时间吗?

对于上述数据,我的映射器数是:14778

如果您有多个小文件,则可以使用所有这些小文件,并通过在驱动程序中使用MultipleInputs格式将它们提交给一个映射器。 如下所示:

MultipleInputs.addInputPath(job,new Path(args[0]),TextInputFormat.class,CounterMapper.class);
MultipleInputs.addInputPath(job,new Path(args[1]),TextInputFormat.class,CountertwoMapper.class);

您也可以实现自定义比较器以减少随机播放的负载。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM