繁体   English   中英

Hadoop映射器任务详细执行时间

[英]Hadoop mapper task detailed execution time

对于某个Hadoop MapReduce映射器任务,我已经有了该映射器任务的完整执行时间。 通常,映射器包括三个步骤:(1)从HDFS或其他来源(如Amazon S3)读取输入; (2)处理输入数据; (3)将中间结果写入本地磁盘。 现在,我想知道是否有可能知道每个步骤花费的时间。

我的目的是得到以下结果:(1)映射器从HDFS或S3读取输入需要多长时间。 结果仅表明映射器可以读取的速度。 它更像是映射器的I / O性能。 (2)映射器处理这些数据需要花费多长时间,这更像是任务的计算能力。

有人对如何获得这些结果有任何想法吗?

谢谢。

只需实现一个不发出任何东西的只读映射器。 然后,这将指示读取(但不处理)每个拆分需要多长时间。

您可以进一步定义运行时(通过作业属性)传递给作业的变量,该变量允许您执行以下操作之一(例如,针对Enum对象解析变量,然后打开值):

  • 刚读
  • 只是读取和处理(但不写/发射任何东西)
  • 做好一切

当然,这假定您有权访问映射器代码。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM