[英]Hadoop mapper task detailed execution time
对于某个Hadoop MapReduce映射器任务,我已经有了该映射器任务的完整执行时间。 通常,映射器包括三个步骤:(1)从HDFS或其他来源(如Amazon S3)读取输入; (2)处理输入数据; (3)将中间结果写入本地磁盘。 现在,我想知道是否有可能知道每个步骤花费的时间。
我的目的是得到以下结果:(1)映射器从HDFS或S3读取输入需要多长时间。 结果仅表明映射器可以读取的速度。 它更像是映射器的I / O性能。 (2)映射器处理这些数据需要花费多长时间,这更像是任务的计算能力。
有人对如何获得这些结果有任何想法吗?
谢谢。
只需实现一个不发出任何东西的只读映射器。 然后,这将指示读取(但不处理)每个拆分需要多长时间。
您可以进一步定义运行时(通过作业属性)传递给作业的变量,该变量允许您执行以下操作之一(例如,针对Enum对象解析变量,然后打开值):
当然,这假定您有权访问映射器代码。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.