帶有索引，數據和Bloom文件的Hadoop seq目錄-如何讀取？

Question

Hadoop的新手...我有一系列具有命名約定filename.seq的HDFS目錄。 每個目錄都包含一個索引，數據和Bloom文件。 它們具有二進制內容，並且看起來像是SequenceFiles（SEQ以頭開始）。 我想知道結構/架構。 我閱讀的所有內容都是指讀取單個序列文件，因此我不確定如何讀取它們或它們是如何產生的。 謝謝。

更新：我嘗試過推薦的工具，用於在文件上流式傳輸和輸出文本，沒有一個起作用：

hadoop fs -text /path/to/hdfs-filename.seq/data | head

hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.0.0-mr1-cdh4.1.2.jar \
-input /path/to/hdfs-filename.seq/data \
-output /tmp/outputfile \
-mapper "/bin/cat" \
-reducer "/bin/wc -l" \
-inputformat SequenceFileAsTextInputFormat

錯誤是：

ERROR streaming.StreamJob: Job not successful. Error: NA

Answer 1

SEQ頭確認該hadoop序列文件。 （我從未見過的一件事是您提到的Bloom文件。）

典型的Sequence文件的結構/架構為：

標頭（版本，鍵類，值類，壓縮，壓縮代碼，元數據）
記錄
記錄長度
鍵長
核心價值
每隔100個字節左右就有一個同步標記。

更多細節：

請參閱此處的說明。
序列文件閱讀器以及如何讀取hadoop序列文件？

帶有索引，數據和Bloom文件的Hadoop seq目錄-如何讀取？

問題描述

1 個解決方案

解決方案1
1 已采納 2013-05-27 21:49:17

帶有索引，數據和Bloom文件的Hadoop seq目錄-如何讀取？

問題描述

1 個解決方案

解決方案1 1 已采納 2013-05-27 21:49:17

解決方案1
1 已采納 2013-05-27 21:49:17