簡體   English   中英

如何在Hadoop流,typedbytes和/或rawbytes中分隔鍵,值和記錄

[英]How are keys, values, and records delimited in Hadoop streaming, typedbytes, and/or rawbytes

據我所知,Hadoop流中的文本記錄由換行符分隔,並且鍵和值之間存在可配置的分隔符(默認為tab)。

1)rawbytes格式的結構表明不需要記錄或鍵/值分隔符,但有人可以確認是這種情況嗎?

2)在typedbytes格式中,鍵和值是如何分隔的,以及記錄是如何分隔的?

3)另外,鍵是如何以typedbytes和rawbytes格式排序的?

  1. 正確
  2. 標頭中的長度信息使得分隔符不必要,實際上它們不在規范中使用,但有一個例外,255分隔列表,類型代碼9
  3. 沒有指定排序順序。 根據我的經驗,mapreduce中的默認比較器將它們分類為原始字節,數字表示每個字節,按字典順序排列數組。 它是可插入的,因此您可以使用自己的Java類進行更改。

請參閱https://hadoop.apache.org/docs/current2/api/org/apache/hadoop/typedbytes/package-summary.html

安東尼奧

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM