带有索引，数据和Bloom文件的Hadoop seq目录-如何读取？

Question

Hadoop的新手...我有一系列具有命名约定filename.seq的HDFS目录。 每个目录都包含一个索引，数据和Bloom文件。 它们具有二进制内容，并且看起来像是SequenceFiles（SEQ以头开始）。 我想知道结构/架构。 我阅读的所有内容都是指读取单个序列文件，因此我不确定如何读取它们或它们是如何产生的。 谢谢。

更新：我尝试过推荐的工具，用于在文件上流式传输和输出文本，没有一个起作用：

hadoop fs -text /path/to/hdfs-filename.seq/data | head

hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.0.0-mr1-cdh4.1.2.jar \
-input /path/to/hdfs-filename.seq/data \
-output /tmp/outputfile \
-mapper "/bin/cat" \
-reducer "/bin/wc -l" \
-inputformat SequenceFileAsTextInputFormat

错误是：

ERROR streaming.StreamJob: Job not successful. Error: NA

Answer 1

SEQ头确认该hadoop序列文件。 （我从未见过的一件事是您提到的Bloom文件。）

典型的Sequence文件的结构/架构为：

标头（版本，键类，值类，压缩，压缩代码，元数据）
记录
记录长度
键长
核心价值
每隔100个字节左右就有一个同步标记。

更多细节：

请参阅此处的说明。
序列文件阅读器以及如何读取hadoop序列文件？

带有索引，数据和Bloom文件的Hadoop seq目录-如何读取？

问题描述

1 个解决方案

解决方案1
1 已采纳 2013-05-27 21:49:17

带有索引，数据和Bloom文件的Hadoop seq目录-如何读取？

问题描述

1 个解决方案

解决方案1 1 已采纳 2013-05-27 21:49:17

解决方案1
1 已采纳 2013-05-27 21:49:17