如何將MapReduce的結果傳遞到另一個MapReduce（java和hadoop）

Question

我有6個需要運行MapReduce CSV文件。 最好事先（在Python或其他工具中）先連接數據，然后通過MapReduce運行它？ 或完成第一個MapReduce ，然后將.txt結果輸入到下一個MapReduce以匯總並加入其他數據集？ 我正在使用Java和Hadoop ，並從網上找到的示例中拼湊了一些內容。 我正在個人PC的VM上運行此程序，並且對Java和Hadoop還是Hadoop 。

我正在使用社交媒體數據，並且我提供的第一個MapReduce給出了被標記為令人反感的帖子ID，以及被標記為令人反感的次數。 現在，我需要將其添加到提供該帖子的用戶ID的CSV中，以完成將其帖子標記為令人反感的前10名用戶以及該帖子的數量。

任何幫助我走上正軌的幫助都將受到贊賞！

Answer 1

如果所有文件的格式相同，則可以使用多個輸入，也可以輸入整個目錄。

為了解決這個問題，我們可以使用FileInputFormat.addInputPaths（）方法，該方法可以采用逗號分隔的多個輸入列表，並且可以將其編寫為

FileInputFormat.addInputPaths("file0,file1,...")

如何將MapReduce的結果傳遞到另一個MapReduce（java和hadoop）

問題描述

1 個解決方案

解決方案1
0 2017-11-07 05:21:57

如何將MapReduce的結果傳遞到另一個MapReduce（java和hadoop）

問題描述

1 個解決方案

解決方案1 0 2017-11-07 05:21:57

解決方案1
0 2017-11-07 05:21:57