[英]Hadoop seq directory with index, data and bloom files — how to read?
Hadoop的新手...我有一系列具有命名約定filename.seq的HDFS目錄。 每個目錄都包含一個索引,數據和Bloom文件。 它們具有二進制內容,並且看起來像是SequenceFiles(SEQ以頭開始)。 我想知道結構/架構。 我閱讀的所有內容都是指讀取單個序列文件,因此我不確定如何讀取它們或它們是如何產生的。 謝謝。
更新:我嘗試過推薦的工具,用於在文件上流式傳輸和輸出文本,沒有一個起作用:
hadoop fs -text /path/to/hdfs-filename.seq/data | head
hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.0.0-mr1-cdh4.1.2.jar \
-input /path/to/hdfs-filename.seq/data \
-output /tmp/outputfile \
-mapper "/bin/cat" \
-reducer "/bin/wc -l" \
-inputformat SequenceFileAsTextInputFormat
錯誤是:
ERROR streaming.StreamJob: Job not successful. Error: NA
SEQ頭確認該hadoop序列文件。 (我從未見過的一件事是您提到的Bloom文件。)
典型的Sequence文件的結構/架構為:
更多細節:
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.