簡體   English   中英

與Pig有效地合並2個排序的文件

[英]merging 2 sorted files efficiently with pig

我的HDFS 2數據集具有完全相同的結構,並且都按相同的鍵排序。 我想將它們合並到按該鍵排序的一個大數據集中。

現在我知道pig具有有效的merge-join(http://wiki.apache.org/pig/PigMergeJoin),它也具有有效的merge-sort嗎?

合並聯接的輸出將是單個排序列表。 因此您不需要單獨的排序。

也許智能加載器( 如Zebra )可以為每個地圖的索引創建正確的分割,而COGROUP USING 'merge'后跟“ GENERATE groupCOGROUP USING 'merge'仍然保持順序?

如果不是這樣,在這種情況下, UNION USING 'merge'創建新的UNION USING 'merge'將是完美的!

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM