繁体 English 中英

Hadoop地图减少工作建模

[英]Hadoop map reduce job modelling

原文 2018-07-17 00:46:54 5 1 apache/ hadoop2

我对hadoop相当陌生，我需要帮助对地图进行建模以减少工作量。

我有两组文件：GroupA和GroupB。 两组文件的结构相同：键，每行中的值。 组A和B具有相同的键集。 但是，两组中的值具有不同的属性。 文件足够大，因此有hadoop选项。

任务是将每个单独键的组A和组B的属性组合为该键的第三属性，然后将所有键的第三属性相加。

现在，乍一看看起来是这样的：Map->从两个组文件中收集键-值对Combine-partition-sort-shuffle->将相同键的条目分组到相同的分区中，因此它们属于同一reducer由hadoop内部提供）减少->将相同的键值组合到第三个属性中，并将其批次写入输出文件中。

我不确定如何建模将键之间的第三个属性相加的第三步。 我能想到的一种方法是在此文件之后执行另一个map-red作业，该作业可以获取此文件并将它们通过一个reducer组合成结果。 这是正确的建模方式吗？ 还有其他方法可以对此建模吗？ 是否有可能沿着这样的路线（地图->红色->红色）连续放置异径管？

1 个解决方案

hadoop中的模型将类似于让两个map reduce模型一个接一个地触发。 如果我们在hadoop上使用spark，则有一个叫做count的东西，可以在map-reduce之后调用以获得最终输出。

Apache Hadoop 2.0中的Map Reduce作业

[英]Map Reduce Job in Apache Hadoop 2.0

Hadoop：地图中的错误类路径减少了工作

[英]Hadoop: wrong classpath in map reduce job

hadoop：支持Map Reduce作业的多个输出

[英]hadoop : supporting multiple outputs for Map Reduce jobs

Eclipse Map和Reduce插件和Hadoop教程

[英]Eclipse Map and Reduce Plugin & Hadoop Tutorial

Apache hadoop map 减少任务冻结

[英]Apache hadoop map reduce task freezing

Map Reduce Apache Hadoop 的最大公约数

[英]Greatest common divisor with Map Reduce Apache Hadoop

Map Reduce作业生成空的输出文件

[英]Map Reduce job generating empty output file

列表索引超出地图的范围以减少Java中的作业

[英]list index out of range for map reduce job in java

Map Reduce中的Map Reduce

[英]Map Reduce in Map Reduce

hadoop job -list已弃用

[英]hadoop job -list deprecated

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Apache Hadoop 2.0中的Map Reduce作业 Hadoop：地图中的错误类路径减少了工作 hadoop：支持Map Reduce作业的多个输出 Eclipse Map和Reduce插件和Hadoop教程 Apache hadoop map 减少任务冻结 Map Reduce Apache Hadoop 的最大公约数 Map Reduce作业生成空的输出文件列表索引超出地图的范围以减少Java中的作业 Map Reduce中的Map Reduce hadoop job -list已弃用

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM