[英]How to pass result of MapReduce into another MapReduce (java and hadoop)
我有6個需要運行MapReduce
CSV
文件。 最好事先(在Python
或其他工具中)先連接數據,然后通過MapReduce
運行它? 或完成第一個MapReduce
,然后將.txt
結果輸入到下一個MapReduce
以匯總並加入其他數據集? 我正在使用Java
和Hadoop
,並從網上找到的示例中拼湊了一些內容。 我正在個人PC的VM上運行此程序,並且對Java
和Hadoop
還是Hadoop
。
我正在使用社交媒體數據,並且我提供的第一個MapReduce
給出了被標記為令人反感的帖子ID,以及被標記為令人反感的次數。 現在,我需要將其添加到提供該帖子的用戶ID的CSV
中,以完成將其帖子標記為令人反感的前10名用戶以及該帖子的數量。
任何幫助我走上正軌的幫助都將受到贊賞!
如果所有文件的格式相同,則可以使用多個輸入,也可以輸入整個目錄。
為了解決這個問題,我們可以使用FileInputFormat.addInputPaths()方法,該方法可以采用逗號分隔的多個輸入列表,並且可以將其編寫為
FileInputFormat.addInputPaths("file0,file1,...")
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.