繁体 English 中英

Hadoop MapReduce映射器任务花费时间从HDFS或S3读取输入文件

[英]Time spent by a Hadoop MapReduce mapper task to read input files from HDFS or S3

原文 2013-11-21 04:09:36 4 1 hadoop/ mapreduce/ mapper

我正在运行Hadoop MapReduce作业，正在从HDFS或Amazon S3获取输入文件。 我想知道是否有可能知道一个映射器任务从HDFS或S3读取文件到映射器需要多长时间。 我想知道仅用于读取数据的时间，不包括那些数据的映射器处理时间。 对于特定的映射器任务，我正在寻找的结果约为MB /秒，这表明映射器可以从HDFS或S3中读取的速度。 这有点像I / O性能。

谢谢。

1 个解决方案

也许您可以只使用一个单位映射器，并将reducer的数量设置为零 。 这样，在仿真中唯一要做的就是I / O，就不会进行排序和改组。 或者，如果您特别希望专注于阅读，则可以使用不写入任何输出的函数来替换单位映射器。 接下来，我将设置mapred.jvm.reuse=-1 ，以消除jvm的开销。 这不是完美的方法，但它可能是拥有快速构想的最简单方法。 如果您想精确地做到这一点，我会考虑看看如何实现自己的hadoop计数器，但是目前我还没有经验。

如何使用Hadoop MapReduce将数据从AWS S3导入HDFS

[英]How to import data from aws s3 to HDFS with Hadoop MapReduce

从Hadoop Mapreduce作业在HDFS上打开文件

[英]Opening files on HDFS from Hadoop mapreduce job

Hadoop服务器连接，用于将文件从HDFS复制到AWS S3

[英]Hadoop server connection for copying files from HDFS to AWS S3

Hadoop：Mapper无法从多个输入路径读取文件

[英]Hadoop: the Mapper didn't read files from multiple input paths

Hadoop的MapReduce中的映射器读取了我的输入文件两次

[英]My Input file is being read twice by the mapper in MapReduce of Hadoop

hadoop从hdfs复制到S3

[英]hadoop copying from hdfs to S3

hadoop mapreduce是否在hdfs中打开临时文件

[英]Does hadoop mapreduce open temporary files in hdfs

Hadoop 2.7：使用流API的MapReduce任务的总时间

[英]Hadoop 2.7: MapReduce task's total time using streaming API

Hadoop的Hive / Pig，HDFS和MapReduce关系

[英]Hadoop's Hive/Pig, HDFS and MapReduce relationship

Hadoop MapReduce：将数据从映射器复制到reducer

[英]Hadoop MapReduce: Replicating the data from mapper to reducer

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何使用Hadoop MapReduce将数据从AWS S3导入HDFS 从Hadoop Mapreduce作业在HDFS上打开文件 Hadoop服务器连接，用于将文件从HDFS复制到AWS S3 Hadoop：Mapper无法从多个输入路径读取文件 Hadoop的MapReduce中的映射器读取了我的输入文件两次 hadoop从hdfs复制到S3 hadoop mapreduce是否在hdfs中打开临时文件 Hadoop 2.7：使用流API的MapReduce任务的总时间 Hadoop的Hive / Pig，HDFS和MapReduce关系 Hadoop MapReduce：将数据从映射器复制到reducer

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM