簡體 English 中英

在Hadoop map-reduce中對聯接的數據進行分組

[英]Grouping joined data in Hadoop map-reduce

原文 2014-03-06 19:54:46 7 1 java/ join/ hadoop/ mapreduce

我有兩種不同類型的文件，一種是用戶列表。 它具有以下結構： UserID，Name，CountryID

第二種類型是訂單列表： OrderID，UserID，OrderSum

每個用戶都有很多訂單。 我需要編寫map-reduce hadoop作業（在Java中）並接收具有以下結構的輸出： CountryID，NumOfUsers，MinOrder，MaxOrder

對於我來說，編寫兩個不同的映射器（針對每種文件類型）和一個簡化器以通過UserID 合並來自兩個文件的數據並接收以下結構對我來說不是問題： UserID，CountryID，UsersMinOrder，UsersMaxOrder

但是我不明白如何按CountryID將數據分組？

1 個解決方案

我建議通過Pig或Hive運行此程序，因為您只需幾行就可以解決此類問題。

如果失敗，我將執行以下操作。 在聯接的數據上運行另一個MapReduce作業，然后執行以下操作：在映射器中，對於每個輸入拆分，請保留每個國家/地區ID的最小順序，最大順序和元組（具有唯一用戶ID的行）數量的標簽。 只有幾個國家/地區，因此您可以在整個地圖工作中將這些統計信息保留在內存中。 拆分結束時，將累積的統計信息輸出到以國家/地區ID為鍵的減速器。 然后，reducer可以簡單地合並每個拆分的匯總數據，以找到全局最大值，最小值和計數。

Hadoop Map-Reduce。記錄閱讀器

[英]Hadoop Map-Reduce . RecordReader

Hadoop map-reduce 編程

[英]Hadoop map-reduce programming

多個mysql表中的數據到hadoop map-reduce

[英]data from mutiple mysql tables to hadoop map-reduce

運行本地hadoop map-reduce不會按預期對數據進行分區

[英]Running a local hadoop map-reduce does not partition data as expected

即時將輸入數據添加到Hadoop Map-Reduce Job？

[英]Add input data on the fly to Hadoop Map-Reduce Job?

運行Hadoop Map-Reduce作業

[英]Running a Hadoop Map-Reduce Job

對Hadoop Map-Reduce應用程序進行基准測試

[英]Benchmarking Hadoop Map-Reduce application

結合hadoop map-reduce的結果

[英]Combining results from hadoop map-reduce

Hadoop Map-Reduce輸出文件異常

[英]Hadoop Map-Reduce Output File Exception

為什么Hadoop Map-Reduce應用程序在兩個不同的reduce任務中處理相同的數據？

[英]Why is Hadoop Map-Reduce application processing the same data in two different reduce tasks?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Hadoop Map-Reduce。記錄閱讀器 Hadoop map-reduce 編程多個mysql表中的數據到hadoop map-reduce 運行本地hadoop map-reduce不會按預期對數據進行分區即時將輸入數據添加到Hadoop Map-Reduce Job？運行Hadoop Map-Reduce作業對Hadoop Map-Reduce應用程序進行基准測試結合hadoop map-reduce的結果 Hadoop Map-Reduce輸出文件異常為什么Hadoop Map-Reduce應用程序在兩個不同的reduce任務中處理相同的數據？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM