每当尝试在带有词组--master yarn的emr集群上使用spark-submit时,我都会收到错误消息,提示必须设置HADOOP_CONF_DIR或YARN_CONF_DIR。

将HADOOP_CONF_DIR设置为/ etc / hadoop之后,我得到以下异常:

Diagnostics: java.io.FileNotFoundException: File file:/home/hadoop/sample_code/spark4.py does not exist

为了找到正确的文件,我是否需要填充YARN_CONF_DIR或HADOOP_CONF_DIR的特定内容?

  ask by CBredlow translate from so

本文未有回复,本站智能推荐:

3回复

部署Spark的最佳方式?

在YARN或EMR而不是EC2上部署Spark有很大的优势吗? 这将主要用于研究和原型设计,并且可能使用Scala。 我们不愿意不使用EC2主要源于额外的基础设施和其他选项涉及的复杂性,但也许它们也提供了实质性的好处? 我们主要是从/向S3读/写数据。
2回复

Spark工作只会挂起大数据

我试图从s3(15天的数据)查询。 我试着单独查询它们(每天)它工作正常。 它也能正常工作14天。 但是当我查询15天时,作业一直在运行(挂起)并且任务#没有更新。 我的设置 : 我正在使用具有动态分配和最大资源打开的51节点集群r3.4x large。 我所做的只是= 当
1回复

Spark提交采取额外的容器

在使用静态分配进行Spark-submit ,产生的容器数量高于 num-executors 手动提交中提到的数量。 作业占用额外资源的任何具体原因。 火花 - 2.4.4 如果需要任何其他信息,请告诉我。
1回复

AmazonEMR上的SparkonYarn资源管理:如何利用所有可用内核执行Spark作业

我在具有以下集群配置的 EMR 集群上运行了一个 Spark 作业: Master : 1 : m4.2xlarge:32 GiB 内存,8 个 vCPU。 核心:2:m4.2xlarge:32 GiB 内存,8 个 vCPU。 任务节点:最多 52 个:r4.2xlarge:61 GiB 内存,
2回复

我如何知道在/mnt/yarn/usercache和/var/log/hadoop-yarn/containers目录中删除什么是安全的?

我有一个在 AWS 上运行的 EMR 集群。 我查看 YARN,发现我的 4 名工人由于以下原因处于“不健康状态” 因此,我通过 ssh 进入工作节点 -> 运行df并且确定/mnt/yarn了 99% 的磁盘空间。 此外,许多stderror和stdout文件占用了/var/log/hado
1回复

Hadoop(EMR)ClusterFairScheduler正在完成FIFO而不是并行

这是我第一次尝试配置 YARN 调度程序,但它没有像我希望的那样工作。 该集群最初用作 FIFO,我正在尝试让作业并行运行。 我已经添加到yarn-site.xml的顶部 然后添加文件/etc/hadoop/conf.empty/fair-scheduler.xml: 所以在这之后我停止并启动了纱线
1回复

如何将YARN应用程序日志保存在本地文件系统而不是HDFS中?

我将yarn.log-aggregation-enable设置为true ,这使NodeManager立即将所有容器日志连接到一个文件中,并将它们上传到${yarn.nodemanager.remote-app-log-dir}/${user.name}/logs/<application I
2回复

Hadoop作业仅使用255个核心,但我有784个核心集群

嗨,我有784个核心EMR群集,我只运行一个hadoop作业,但是Hadoop作业仅使用255个内核,但是我有784个核心群集,有人可以帮助我如何调整群集以使用至少600个内核