繁体   English   中英

Hadoop MapReduce映射器任务花费时间从HDFS或S3读取输入文件

[英]Time spent by a Hadoop MapReduce mapper task to read input files from HDFS or S3

我正在运行Hadoop MapReduce作业,正在从HDFS或Amazon S3获取输入文件。 我想知道是否有可能知道一个映射器任务从HDFS或S3读取文件到映射器需要多长时间。 我想知道仅用于读取数据的时间,不包括那些数据的映射器处理时间。 对于特定的映射器任务,我正在寻找的结果约为MB /秒,这表明映射器可以从HDFS或S3中读取的速度。 这有点像I / O性能。

谢谢。

也许您可以只使用一个单位映射器,并将reducer的数量设置为零 这样,在仿真中唯一要做的就是I / O,就不会进行排序和改组。 或者,如果您特别希望专注于阅读,则可以使用不写入任何输出的函数来替换单位映射器。 接下来,我将设置mapred.jvm.reuse=-1 ,以消除jvm的开销。 这不是完美的方法,但它可能是拥有快速构想的最简单方法。 如果您想精确地做到这一点,我会考虑看看如何实现自己的hadoop计数器,但是目前我还没有经验。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM