繁体   English   中英

Hadoop地图减少工作建模

[英]Hadoop map reduce job modelling

我对hadoop相当陌生,我需要帮助对地图进行建模以减少工作量。

我有两组文件:GroupA和GroupB。 两组文件的结构相同:键,每行中的值。 组A和B具有相同的键集。 但是,两组中的值具有不同的属性。 文件足够大,因此有hadoop选项。

任务是将每个单独键的组A和组B的属性组合为该键的第三属性,然后将所有键的第三属性相加。

现在,乍一看看起来是这样的:Map->从两个组文件中收集键-值对Combine-partition-sort-shuffle->将相同键的条目分组到相同的分区中,因此它们属于同一reducer由hadoop内部提供)减少->将相同的键值组合到第三个属性中,并将其批次写入输出文件中。

我不确定如何建模将键之间的第三个属性相加的第三步。 我能想到的一种方法是在此文件之后执行另一个map-red作业,该作业可以获取此文件并将它们通过一个reducer组合成结果。 这是正确的建模方式吗? 还有其他方法可以对此建模吗? 是否有可能沿着这样的路线(地图->红色->红色)连续放置异径管?

hadoop中的模型将类似于让两个map reduce模型一个接一个地触发。 如果我们在hadoop上使用spark,则有一个叫做count的东西,可以在map-reduce之后调用以获得最终输出。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM