如何读取Hadoop Sequentil文件作为Hadoop作业的输入？

Question

我有一个顺序文件，其键值对类型为“ org.apache.hadoop.typedbytes.TypedBytesWritable” ，我必须提供此文件作为Hadoop作业的输入，并且只能在map中进行处理。 我的意思是我不需要做任何需要减少的事情。

1）我如何将FileInputFormat指定为SequentialFile？

2）地图功能的签名是什么。

3）我如何从地图而不是减少输出？

Answer 1

1）我如何将FileInputFormat指定为SequentialFile？

将SequenceFileAsBinaryInputFormat设置为输入格式。 这是SequenceFileAsBinaryInputFormat类的代码。

这是代码

JobConf conf = new JobConf(getConf(), getClass());
conf.setInputFormat(SequenceFileAsBinaryInputFormat.class);

2）地图功能的签名是什么。

该映射将使用BytesWritable作为键和值类型来调用。

3）我如何从地图而不是减少输出？

将mapred.reduce.tasks属性设置为0.映射的输出将是作业的最终输出。

另外，看看SequenceFileAsTextInputFormat 。 将使用Text作为键和值类型调用映射。