[英]Hadoop MapReduce: Replicating the data from mapper to reducer
我從映射器獲取所需的輸出,但未排序。 是否有任何方法可以對Mapper輸出進行排序,也可以將復制自Mapper的確切數據復制到reducer(希望數據將在reduce階段進行排序)? 由於我是Hadoop的新手,因此如果您有任何示例代碼,請提供幫助。
映射器的輸出:
1,abcd,76 5,yyht,87 3,ddfg,43
我希望此結果以一種排序的方式。
MapReduce中有一個階段稱為改組。 這恰好發生在Map階段之后,然后再將數據發送到reducer。 改組主要有兩個階段,一個是排序,另一個是分組。 您不需要顯式排序映射器的輸出。
這是簡單的例子。
(Hello, 1) (Hello, 1) (A, 1) (boss, 1) > These will be first sorted
(A,1), (boss,1), (Hello,1), (Hello,1) > Sorting done on the KEY, and now groupping
(A,<1>), (boss, <1>), (Hello,<1,1>) > (Key,List<Values>)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.