簡體   English   中英

如何將MapReduce的結果傳遞到另一個MapReduce(java和hadoop)

[英]How to pass result of MapReduce into another MapReduce (java and hadoop)

我有6個需要運行MapReduce CSV文件。 最好事先(在Python或其他工具中)先連接數據,然后通過MapReduce運行它? 或完成第一個MapReduce ,然后將.txt結果輸入到下一個MapReduce以匯總並加入其他數據集? 我正在使用JavaHadoop ,並從網上找到的示例中拼湊了一些內容。 我正在個人PC的VM上運行此程序,並且對JavaHadoop還是Hadoop

我正在使用社交媒體數據,並且我提供的第一個MapReduce給出了被標記為令人反感的帖子ID,以及被標記為令人反感的次數。 現在,我需要將其添加到提供該帖子的用戶ID的CSV中,以完成將其帖子標記為令人反感的前10名用戶以及該帖子的數量。

任何幫助我走上正軌的幫助都將受到贊賞!

如果所有文件的格式相同,則可以使用多個輸入,也可以輸入整個目錄。

為了解決這個問題,我們可以使用FileInputFormat.addInputPaths()方法,該方法可以采用逗號分隔的多個輸入列表,並且可以將其編寫為

FileInputFormat.addInputPaths("file0,file1,...")

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM