繁体 English 中英

为每个映射器加载相同的文件

[英]Loading same file for each mapper

原文 2014-04-02 12:08:51 3 1 java/ hadoop/ mapreduce

假设我们有10个数据点和5个映射器，目标是计算点之间的距离。 通常，通过将每两对进行比较将这花费O（N ^ 2）。

我要做的是将包含数据点的整个文件加载到每个映射器，并使每个映射器在不同的点上运行。 例如，让映射器＃1计算点1和点2与所有其他点的距离，让映射器＃2计算点3和点4与所有其他点的距离，依此类推。

我在论文中遇到了这种算法，但是它没有实现它的特定方法。 对于如何将整个文件加载到每个映射器，或如何使每个映射器通过文件在特定索引上进行操作的任何想法或建议，将不胜感激。

1 个解决方案

看一下本文，建议使用“块嵌套循环”联接（第3节），该联接与您要求的联接稍有不同，但可以轻松扩展以适应您的需求。 如果将R和S都视为一个来源，那么最后，它会根据需要将所有点与所有其他点进行比较。

根据您的要求，您无需实施仅保留前k个结果的第二个MapReduce作业。

在hadoop 1.2.0（旧API）中，您可以通过使用conf.get("mapred.map.tasks")命令获得映射器的总数，并通过使用conf.get("mapred.map.tasks")获得当前映射器的conf.get("mapred.task.partition")命令。

但是，要回答有关如何为所有映射器获取相同文件的问题，可以使用Distributed Cache 。

为每个映射器hadoop在内存中加载相同的文件

[英]Loading the same file in memory for each mapper hadoop

为什么接口和xml映射器文件必须在同一个包中并且具有相同的名称？

[英]Why must the interface and xml mapper file be in same package and have the same name?

将不同的参数传递给每个映射器

[英]Passing different parameters to each mapper

MapperRegistry不知道Mapper文件

[英]Mapper file is not known to the MapperRegistry

创建文件映射器

[英]Creating a file mapper

具有相同基本映射器的多个关联

[英]Multiple assocations with same base mapper

如何使每个hadoop映射器获取文件对，即整个输入文件（.csv）和整个元数据文件（.json）

[英]How to make each hadoop mapper to get a file pair i.e. a whole input file (.csv) and a whole meta data file (.json)

在同一文件中保存/加载两个HashMaps

[英]Saving / Loading two HashMaps in the same file

每个映射器“类型”的多个输入文件

[英]Multiple input files for each mapper 'type'

Hadoop为每个映射器使用一个实例

[英]Hadoop use one instance for each mapper

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 为每个映射器hadoop在内存中加载相同的文件为什么接口和xml映射器文件必须在同一个包中并且具有相同的名称？将不同的参数传递给每个映射器 MapperRegistry不知道Mapper文件创建文件映射器具有相同基本映射器的多个关联如何使每个hadoop映射器获取文件对，即整个输入文件（.csv）和整个元数据文件（.json）在同一文件中保存/加载两个HashMaps 每个映射器“类型”的多个输入文件 Hadoop为每个映射器使用一个实例

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM