[英]merging 2 sorted files efficiently with pig
我的HDFS 2數據集具有完全相同的結構,並且都按相同的鍵排序。 我想將它們合並到按該鍵排序的一個大數據集中。
現在我知道pig具有有效的merge-join(http://wiki.apache.org/pig/PigMergeJoin),它也具有有效的merge-sort嗎?
合並聯接的輸出將是單個排序列表。 因此您不需要單獨的排序。
也許智能加載器( 如Zebra )可以為每個地圖的索引創建正確的分割,而COGROUP USING 'merge'
后跟“ GENERATE group
的COGROUP USING 'merge'
仍然保持順序?
如果不是這樣,在這種情況下, UNION USING 'merge'
創建新的UNION USING 'merge'
將是完美的!
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.