Hadoop - 为Mapper中的每个map（）函数创建一个类的单个实例，用于特定节点

Question

我在java中为hadoop MapReduce提供了类似这样的类

public Class MyClass {
    public static MyClassMapper extends Mapper {
        static SomeClass someClassObj = new SomeClass();

        void map(Object Key, Text value, Context context) {
             String someText = someClassObj.getSomeThing();
        }
    }
}

我只需要someClassObj的一个实例可用于每个节点的map（）函数。 怎么能实现呢？

如果您需要有关此主题的更多详细信息，请随时询问。

谢谢！

Answer 1

mapreduce.tasktracker.map.tasks.maximum（默认为2）控制TaskTracker同时运行的最大映射任务数。 将此值设置为1。

每个map任务启动都是一个单独的JVM。 还要将mapreduce.job.jvm.numtasks设置为-1以重用JVM 。

上述设置将使所有映射任务按顺序在单个JVM中运行。 现在，SomeClass必须成为单例类。

这不是最佳实践，因为节点没有被有效利用，因为可以并行运行的地图任务数量较少。 此外，通过JVM重用，任务之间没有隔离，因此如果存在任何内存泄漏，它将继续执行直到jvm崩溃。

Hadoop - 为Mapper中的每个map（）函数创建一个类的单个实例，用于特定节点

问题描述

1 个解决方案

解决方案1
4 已采纳 2011-10-24 13:45:48

Hadoop - 为Mapper中的每个map（）函数创建一个类的单个实例，用于特定节点

问题描述

1 个解决方案

解决方案1 4 已采纳 2011-10-24 13:45:48

解决方案1
4 已采纳 2011-10-24 13:45:48