簡體   English   中英

帶有索引,數據和Bloom文件的Hadoop seq目錄-如何讀取?

[英]Hadoop seq directory with index, data and bloom files — how to read?

Hadoop的新手...我有一系列具有命名約定filename.seq的HDFS目錄。 每個目錄都包含一個索引,數據和Bloom文件。 它們具有二進制內容,並且看起來像是SequenceFiles(SEQ以頭開始)。 我想知道結構/架構。 我閱讀的所有內容都是指讀取單個序列文件,因此我不確定如何讀取它們或它們是如何產生的。 謝謝。

更新:我嘗試過推薦的工具,用於在文件上流式傳輸和輸出文本,沒有一個起作用:

hadoop fs -text /path/to/hdfs-filename.seq/data | head

hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.0.0-mr1-cdh4.1.2.jar \
-input /path/to/hdfs-filename.seq/data \
-output /tmp/outputfile \
-mapper "/bin/cat" \
-reducer "/bin/wc -l" \
-inputformat SequenceFileAsTextInputFormat

錯誤是:

ERROR streaming.StreamJob: Job not successful. Error: NA

SEQ頭確認該hadoop序列文件。 (我從未見過的一件事是您提到的Bloom文件。)

典型的Sequence文件的結構/架構為:

  • 標頭(版本,鍵類,值類,壓縮,壓縮代碼,元數據)
  • 記錄
  • 記錄長度
  • 鍵長
  • 核心價值
  • 每隔100個字節左右就有一個同步標記。

更多細節:

  1. 請參閱此處的說明。
  2. 序列文件閱讀器以及如何讀取hadoop序列文件?

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM