簡體   English   中英

Hadoop map-reduce輸出包含奇怪的字符

[英]Hadoop map-reduce output contains weird characters

我正在運行地圖減少工作。 當我在我的機器上運行它是一個單節點集群時,輸出如圖所示

hduser@nikhil-VirtualBox:/usr/local/hadoop/hadoop-1.0.4$ bin/hadoop dfs -text /user/hduser/output16/part-r-00000
0   Required Genotype column (s), Must not contain NULLS for required fields, failed, 5, 1: GENE_NAME; 2: GENE_NAME; 4: GENE_NAME; 5: GENE_NAME; 9: GENE_NAME

但是,當我在更大的數據集上的Amazon EMR上運行相同的操作時,我得到以下所有奇怪的字符。 可能是什么原因?

SEQorg.apache.hadoop.io.Textorg.apache.hadoop.io.Text\00\00\00\00\00\00\968\D6\FA\E1>X(.q\8B!\ABQ\00\00-\00\00\00
1537044153\8ERequired Genotype column (s), Must not contain NULLS for required fields, failed, 1, 1: VARIANT_START_POSITION; 2: VARIANT_START_POSITION; 

標頭(SEQTextText)告訴您這是一個帶有org.apache.hadoop.io.Text作為鍵和值的SequenceFile

所以這是二進制而不是純文本,您可以使用SequenceFile.Reader讀取它。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM