繁体   English   中英

如何在YARN Spark作业中设置环境变量?

[英]How do I set an environment variable in a YARN Spark job?

我试图访问Accumulo 1.6Apache的星火使用的作业(Java编写的) AccumuloInputFormatnewAPIHadoopRDD 为了做到这一点,我必须通过调用setZooKeeperInstance方法告诉AccumuloInputFormat在哪里找到ZooKeeper。 此方法采用ClientConfiguration对象,该对象指定各种相关属性。

我正在通过调用静态loadDefault方法创建我的ClientConfiguration对象。 此方法应该在client.conf文件的各个位置查看以加载其默认值。 应该看的其中一个地方是$ACCUMULO_CONF_DIR/client.conf

因此,我试图设置ACCUMULO_CONF_DIR环境变量,使其在Spark运行作业时可见(作为参考,我试图在yarn-cluster部署模式下运行)。 我还没有找到成功的方法。

到目前为止,我已经尝试过:

  • 调用setExecutorEnv("ACCUMULO_CONF_DIR", "/etc/accumulo/conf")上的SparkConf
  • 导出ACCUMULO_CONF_DIRspark-env.sh
  • spark-defaults.conf设置spark.executorEnv.ACCUMULO_CONF_DIR

他们都没有工作。 当我在调用setZooKeeperInstance之前打印环境时, ACCUMULO_CONF_DIR不会出现。

如果它是相关的,我正在使用CDH5版本的所有东西。

这是我正在尝试做的一个例子(为简洁而省略了导入和异常处理):

public class MySparkJob
{
    public static void main(String[] args)
    {
        SparkConf sparkConf = new SparkConf();
        sparkConf.setAppName("MySparkJob");
        sparkConf.setExecutorEnv("ACcUMULO_CONF_DIR", "/etc/accumulo/conf");
        JavaSparkContext sc = new JavaSparkContext(sparkConf);
        Job accumuloJob = Job.getInstance(sc.hadoopConfiguration());
        // Foreach loop to print environment, shows no ACCUMULO_CONF_DIR
        ClientConfiguration accumuloConfiguration = ClientConfiguration.loadDefault();
        AccumuloInputFormat.setZooKeeperInstance(accumuloJob, accumuloConfiguration);
        // Other calls to AccumuloInputFormat static functions to configure it properly.
        JavaPairRDD<Key, Value> accumuloRDD =
            sc.newAPIHadoopRDD(accumuloJob.getConfiguration(),
                               AccumuloInputFormat.class,
                               Key.class,
                               Value.class);
    }
}

所以我在写这个问题时找到了答案(抱歉,信誉求职者)。 问题是CDH5使用Spark 1.0.0,而我正在通过YARN运行该作业。 显然,YARN模式不会关注执行程序环境,而是使用环境变量SPARK_YARN_USER_ENV来控制其环境。 因此,确保SPARK_YARN_USER_ENV包含ACCUMULO_CONF_DIR=/etc/accumulo/conf ,并使ACCUMULO_CONF_DIR在问题源示例中指定点的环境中可见。

独立模式和YARN模式工作方式的差异导致了SPARK-1680 ,报告在Spark 1.1.0中已修复。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM