Hadoop MapReduce：將數據從映射器復制到reducer

Question

我從映射器獲取所需的輸出，但未排序。 是否有任何方法可以對Mapper輸出進行排序，也可以將復制自Mapper的確切數據復制到reducer（希望數據將在reduce階段進行排序）？ 由於我是Hadoop的新手，因此如果您有任何示例代碼，請提供幫助。

映射器的輸出：

1，abcd，76 5，yyht，87 3，ddfg，43

我希望此結果以一種排序的方式。

Answer 1

MapReduce中有一個階段稱為改組。 這恰好發生在Map階段之后，然后再將數據發送到reducer。 改組主要有兩個階段，一個是排序，另一個是分組。 您不需要顯式排序映射器的輸出。

這是簡單的例子。

(Hello, 1) (Hello, 1) (A, 1) (boss, 1) > These will be first sorted

(A,1), (boss,1), (Hello,1), (Hello,1) > Sorting done on the KEY, and now groupping

(A,<1>), (boss, <1>), (Hello,<1,1>) > (Key,List<Values>)

Hadoop MapReduce：將數據從映射器復制到reducer

問題描述

1 個解決方案

解決方案1
0 2015-04-09 06:56:05

Hadoop MapReduce：將數據從映射器復制到reducer

問題描述

1 個解決方案

解決方案1 0 2015-04-09 06:56:05

解決方案1
0 2015-04-09 06:56:05