cost 110 ms
Dataproc CPU 使用率太低,即使所有内核都已使用 - Dataproc CPU usage too low even though all the cores got used

问题:我运行的 spark 作业用尽了所有节点上的所有内核,但在 Dataproc CPU 监控图中,CPU 使用率最高达到 12% 我有一个包含 2 个节点的虚拟集群。 每个节点都有: 16 GiB memory 16芯我使用以下配置启动 spark session 并运行以下简单代码: 而且 ...

Yarn 只为每个容器分配 1 个核心。 在纱线上奔跑的火花 - Yarn allocates only 1 core per container. Running spark on yarn

请确保动态分配不会在您监视 YARN UI 时杀死您的容器。 请参阅下面的答案问题:我可以使用每个执行程序的任意数量的核心启动 SparkSession,并且 yarn 仍会报告每个容器仅分配一个核心。 我已经尝试了所有可用的在线解决方案: 这里, 这里等解决办法是: 配置yarn-site.xml ...

新数据节点不从现有 hadoop 集群传输数据 - New datanode not tranferring data from existing hadoop cluster

我遵循了 tutriolpoint 指南并完成了将新节点设置到现有 hadoop 集群的每一步。 但是我很难弄清楚为什么没有传输数据。 我完成了检查主机文件和与授权密钥相关的文件,这些文件应该位于正常运行的从属节点中。 数据节点已经包含有关与主节点连接的信息,但不会从主节点传输数据。 当我尝试从新数 ...

我们是否需要在 yarn 上安装 spark 才能将 HDFS 中的数据读取到 Py Spark 中? - do we need to install spark on yarn to read data from HDFS into Py Spark?

我有一个 Hadoop 3.1.1 多节点集群,我想利用 PySpark 将文件从我的 HDFS 读取到 PySpark 以进行 ETL 操作,然后将其加载到目标 MySQL 数据库。 下面给出的是问题。 我可以在独立模式下安装 spark 吗? 我需要先在我的纱线上安装火花吗? 如果没有,如何单 ...

磁盘上存储的 spark 中间文件在哪里? - Where are the spark intermediate files stored on the disk?

在洗牌期间,映射器将它们的输出转储到本地磁盘,从那里它被减速器拾取。 这些文件在磁盘上的确切位置被转储了? 我在 YARN 上运行 pyspark 集群。 到目前为止我尝试了什么: 我认为中间文件可能存在的位置是(按可能性降序排列): hadoop/spark/tmp 。 根据 yarn 定义的 ...

如何杀死Hadoop Fair Scheduler中最年轻的任务 - How to kill the youngest task in Hadoop Fair Scheduler

我有非常有趣的用例。 我正在运行 Apache Hadoop 分发最新版本,带纱线。 用例是长时间的计算作业,大多数工作在映射器部分内部是计算密集型的。 我正在使用公平调度程序来公平地使用多用户资源。 由于任务是长时间的计算,我正在寻找一种方法来提示调度程序终止最年轻的任务。 是否可以配置 Fair ...

Yarn (yarn.js) 版本升级的问题 - Problem/issues with Yarn (yarn.js) version upgrade

当尝试将纱线版本从“0.28.4”升级到“1.22.19”并在给定场景中缓冲 output 时,但它不适用于更新版本。 任何建议/解决方案? 纱线版本形式“0.28.4”工作正常 纱线版本形式“1.22.19”有问题吗? 试图将纱线版本从“0.28.4”升级到“1.22.19”并面临纱线库问题。 ...

我如何使用 tez 执行引擎在配置单元上并行运行多个查询? - How can i run multiple queries in parallel on hive with tez execution engine?

我们想用 tez 运行 hive 来查询 hdfs 中的数据,因为多个用户将查询 hive,所以我们需要以这种方式配置 hive,以便并行执行查询由于 tez 使用 yarn 将资源分配给多个节点,我们试图限制在 yarn 中每次查询 hive 分配的容器,但无法找到合适的配置 ...

纱列容量的定义 - Definition of yarn queue capacity

如果我搜索“容量”的通用定义,牛津语言会说“某物可以包含的最大量”。 如果我向 yarn 询问默认队列的状态,我会得到以下信息(省略了不太相关的信息): 我不想听起来迂腐,但如果容量是“最大数量”,那么“最大容量”是什么?它与“容量”相比如何? “当前容量”为零是否表示队列中没有剩余空间? 我想是 ...

如何处理从客户端到远程 hdfs 目录的 HADOOP_CONF_DIR 文件(yarn-site.xml,...) - how to address HADOOP_CONF_DIR files(yarn-site.xml, ...) from client to remote hdfs directory

我有一个独特的 Yarn 集群,许多远程客户端使用它向它提交 spark 应用程序。 我需要在每个客户端中设置HADOOP_CONF_DIR环境变量,因为我的主人是 yarn(--master --master yarn ),但我不想将它从 Yarn 集群分别复制到每个客户端。 我想把HADOOP ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM