簡體 English 中英

如何在Hadoop流，typedbytes和/或rawbytes中分隔鍵，值和記錄

[英]How are keys, values, and records delimited in Hadoop streaming, typedbytes, and/or rawbytes

原文 2012-08-20 00:59:34 9 1 java/ hadoop/ mapreduce/ hadoop-streaming/ hadoopy

據我所知，Hadoop流中的文本記錄由換行符分隔，並且鍵和值之間存在可配置的分隔符（默認為tab）。

1）rawbytes格式的結構表明不需要記錄或鍵/值分隔符，但有人可以確認是這種情況嗎？

2）在typedbytes格式中，鍵和值是如何分隔的，以及記錄是如何分隔的？

3）另外，鍵是如何以typedbytes和rawbytes格式排序的？

1 個解決方案

正確
標頭中的長度信息使得分隔符不必要，實際上它們不在規范中使用，但有一個例外，255分隔列表，類型代碼9
沒有指定排序順序。 根據我的經驗，mapreduce中的默認比較器將它們分類為原始字節，數字表示每個字節，按字典順序排列數組。 它是可插入的，因此您可以使用自己的Java類進行更改。

請參閱https://hadoop.apache.org/docs/current2/api/org/apache/hadoop/typedbytes/package-summary.html

安東尼奧

如何在Hadoop map / reduce作業輸出文件中過濾鍵或值？

[英]How to filter keys or values in Hadoop map/reduce job output file?

通過鍵將換行符分隔的 JSON 中的所有值字符串化

[英]Stringify all values in a newline delimited JSON by keys

是否可以使用Hadoop流處理多行記錄？

[英]Is it possible to process multi-line records using Hadoop Streaming?

Java Hadoop MapReduce多鍵值

[英]Java Hadoop MapReduce Multiple Keys Values

在hadoop結果中顯示聚合的鍵和值

[英]Display aggregate Keys and Values in hadoop result

Hadoop MapReduce使用相同的鍵添加值-Java

[英]Hadoop MapReduce Adding Values with Same Keys - Java

如何找到JAR：/home/hadoop/contrib/streaming/hadoop-streaming.jar

[英]how to find JAR: /home/hadoop/contrib/streaming/hadoop-streaming.jar

處理Hadoop mapreduce中鍵之間的值不均勻分布

[英]Handle uneven distribution of values across keys in Hadoop mapreduce

在Hadoop中流式傳輸或自定義Jar

[英]Streaming or custom Jar in Hadoop

如何在Hadoop流中將unprintable指定為鍵值分隔符

[英]How to specify unprintable as the key-value delimiter in Hadoop streaming

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何在Hadoop map / reduce作業輸出文件中過濾鍵或值？通過鍵將換行符分隔的 JSON 中的所有值字符串化是否可以使用Hadoop流處理多行記錄？ Java Hadoop MapReduce多鍵值在hadoop結果中顯示聚合的鍵和值 Hadoop MapReduce使用相同的鍵添加值-Java 如何找到JAR：/home/hadoop/contrib/streaming/hadoop-streaming.jar 處理Hadoop mapreduce中鍵之間的值不均勻分布在Hadoop中流式傳輸或自定義Jar 如何在Hadoop流中將unprintable指定為鍵值分隔符

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM