标签[hadoop-yarn] - 堆栈内存溢出

Dataproc CPU 使用率太低，即使所有内核都已使用 - Dataproc CPU usage too low even though all the cores got used

问题：我运行的 spark 作业用尽了所有节点上的所有内核，但在 Dataproc CPU 监控图中，CPU 使用率最高达到 12% 我有一个包含 2 个节点的虚拟集群。每个节点都有： 16 GiB memory 16芯我使用以下配置启动 spark session 并运行以下简单代码：而且 ...

Yarn 只为每个容器分配 1 个核心。在纱线上奔跑的火花 - Yarn allocates only 1 core per container. Running spark on yarn

请确保动态分配不会在您监视 YARN UI 时杀死您的容器。请参阅下面的答案问题：我可以使用每个执行程序的任意数量的核心启动 SparkSession，并且 yarn 仍会报告每个容器仅分配一个核心。我已经尝试了所有可用的在线解决方案：这里，这里等解决办法是：配置yarn-site.xml ...

如何在命令行中获取作业配置？ - How can I get job configuration in command line?

我开始使用这个yarn application -appStates RUNNING运行应用程序，然后我从列表中获得一个applicationID 。然后我可以通过以下方式获取应用程序的状态： yarn application -status 我想在命令行上获取作业配置信息。有可能的？ ...

新数据节点不从现有 hadoop 集群传输数据 - New datanode not tranferring data from existing hadoop cluster

我遵循了 tutriolpoint 指南并完成了将新节点设置到现有 hadoop 集群的每一步。但是我很难弄清楚为什么没有传输数据。我完成了检查主机文件和与授权密钥相关的文件，这些文件应该位于正常运行的从属节点中。数据节点已经包含有关与主节点连接的信息，但不会从主节点传输数据。当我尝试从新数 ...

我无法在 Hadoop 3.0.0-cdh6.3.2 上运行 haddop jar - I cannot run a haddop jar on Hadoop 3.0.0-cdh6.3.2

我有一台安装了 Hadoop 3.0.0-cdh6.3.2 的机器。我跑了这个并告诉我这个错误：我设置有了这个值我没有更改 yarn-site.xml（已设置 yarn.application.classpath 的值，但如果正确，我不会更改。yarn-site.xml 的值是：请帮助 ...

我们是否需要在 yarn 上安装 spark 才能将 HDFS 中的数据读取到 Py Spark 中？ - do we need to install spark on yarn to read data from HDFS into Py Spark?

我有一个 Hadoop 3.1.1 多节点集群，我想利用 PySpark 将文件从我的 HDFS 读取到 PySpark 以进行 ETL 操作，然后将其加载到目标 MySQL 数据库。下面给出的是问题。我可以在独立模式下安装 spark 吗？我需要先在我的纱线上安装火花吗？如果没有，如何单 ...

磁盘上存储的 spark 中间文件在哪里？ - Where are the spark intermediate files stored on the disk?

在洗牌期间，映射器将它们的输出转储到本地磁盘，从那里它被减速器拾取。这些文件在磁盘上的确切位置被转储了？我在 YARN 上运行 pyspark 集群。到目前为止我尝试了什么：我认为中间文件可能存在的位置是（按可能性降序排列）： hadoop/spark/tmp 。根据 yarn 定义的 ...

在 Pyspark 中从 memory 问题中获取 Java 堆 - Getting Java Heap out of memory issue in Pyspark

我尝试使用 pandas package 读取大小约为 100MB 的多个 CSV 文件，并尝试将文件转换为 Spark.sql.data 帧并将 append 转换为列表。而这个 spark 数据集的列表被转换为单个 dataframe。在 Spark 中，我将 master 用作本地，将部署 ...

如何杀死Hadoop Fair Scheduler中最年轻的任务 - How to kill the youngest task in Hadoop Fair Scheduler

我有非常有趣的用例。我正在运行 Apache Hadoop 分发最新版本，带纱线。用例是长时间的计算作业，大多数工作在映射器部分内部是计算密集型的。我正在使用公平调度程序来公平地使用多用户资源。由于任务是长时间的计算，我正在寻找一种方法来提示调度程序终止最年轻的任务。是否可以配置 Fair ...

为什么我不能在我的项目中安装任何 package？ - why i can't install any package in my project?

[这是这里的问题] ( https://i.stack.imgur.com/b4wFI.png ) git bash 和 PowerShell 我都试过了，但是不行？？请帮我找到这个问题。 ...

hadoop 带有 spark 示例作业的多节点 - hadoop multi node with spark sample job

我刚刚在我的 Hadoop 集群上配置了 spark，我想运行 spark 示例作业。在此之前，我想了解下面的工作代码代表什么。回复赞赏，谢谢。 ...

Yarn (yarn.js) 版本升级的问题 - Problem/issues with Yarn (yarn.js) version upgrade

当尝试将纱线版本从“0.28.4”升级到“1.22.19”并在给定场景中缓冲 output 时，但它不适用于更新版本。任何建议/解决方案？纱线版本形式“0.28.4”工作正常纱线版本形式“1.22.19”有问题吗？试图将纱线版本从“0.28.4”升级到“1.22.19”并面临纱线库问题。 ...

NoSuchMethodError：org/apache/hadoop/mapreduce/util/MRJobConfUtil.setTaskLogProgressDeltaThresholds - NoSuchMethodError: org/apache/hadoop/mapreduce/util/MRJobConfUtil.setTaskLogProgressDeltaThresholds

在我的 hadoop 集群（分布式集群）中执行 mapreduce 作业时出现以下错误。我在映射器失败的 Yarn 应用程序日志中发现了以下错误。 ...

我如何使用 tez 执行引擎在配置单元上并行运行多个查询？ - How can i run multiple queries in parallel on hive with tez execution engine?

我们想用 tez 运行 hive 来查询 hdfs 中的数据，因为多个用户将查询 hive，所以我们需要以这种方式配置 hive，以便并行执行查询由于 tez 使用 yarn 将资源分配给多个节点，我们试图限制在 yarn 中每次查询 hive 分配的容器，但无法找到合适的配置 ...

纱列容量的定义 - Definition of yarn queue capacity

如果我搜索“容量”的通用定义，牛津语言会说“某物可以包含的最大量”。如果我向 yarn 询问默认队列的状态，我会得到以下信息（省略了不太相关的信息）：我不想听起来迂腐，但如果容量是“最大数量”，那么“最大容量”是什么？它与“容量”相比如何？ “当前容量”为零是否表示队列中没有剩余空间？我想是 ...

Hadoop MapReduce 作业在 launch_container.sh 中失败 - Hadoop MapReduce job failing in launch_container.sh

MapReduce 作业失败并出现以下错误，即使设置了 JAVA_HOME。我正在尝试在我的 Mac M1 上设置 hadoop (3.3.4)。我在 /etc/hadoop/hadoop-env.sh 中设置了 JAVA_HOME 我能够将文件添加到 HDFS 但在运行示例 MapReduc ...

YARN 添加新队列或清除默认队列 - YARN add new queue or clear default queue

我在 EMR 集群上运行 YARN。 mapred queue -list返回：如何清除此队列或添加新队列？我已经找了一段时间了，但找不到 CLI 命令来执行此操作。我只能访问 CLI。我提交的任何 Spark 应用程序都挂在 ACCEPTED 状态，我已经通过yarn app --kil ...

终止从 Airflow 到 spark/yarn 的进程信号 - Kill process signal from Airflow to spark/yarn

有人知道如何实现下一个功能吗？当您将 airflow 中的任务标记为失败时，这将停止 Airflow 进程，但这并没有停止在 yarn 中运行的应用程序。类似于当应用程序在终端中运行时。 ...

如何处理从客户端到远程 hdfs 目录的 HADOOP_CONF_DIR 文件（yarn-site.xml，...） - how to address HADOOP_CONF_DIR files(yarn-site.xml, ...) from client to remote hdfs directory

我有一个独特的 Yarn 集群，许多远程客户端使用它向它提交 spark 应用程序。我需要在每个客户端中设置HADOOP_CONF_DIR环境变量，因为我的主人是 yarn(--master --master yarn )，但我不想将它从 Yarn 集群分别复制到每个客户端。我想把HADOOP ...

github 上的 Metaplex-master 只有 Readme 文件 - Metaplex-master on github only has Readme file

我正在尝试设置一个 Solana 糖果机。我正在使用 Hasplips Metaplex-master，但它只有一个自述文件。它应该有一个 js 文件夹，一些 .JSON 文件等等。任何人都可以给我一个链接到糖果机的正确 Metaplex-master 吗？我只能找到 Metaplex 包含 ...