繁体   English   中英

使用的火花芯数

[英]Spark number of cores used

我有一个非常简单的火花作业,可以读取上百万部电影的收视率,并告诉收视率及其收视次数。 该作业在Spark集群上运行,并且运行良好。

对于我用来运行作业的参数有几个问题?

  1. 我有2个节点运行。 节点1 = 24GB RAM和8个VCPU。 节点2 = 8GB RAM和2个VCPU。

所以总共我有32GB RAM和10个VCPU。

spark-submit命令。

spark-submit --master spark://hadoop-master:7077 --executor-memory 4g --num-executors 4 --executor-cores 4 /home/hduser/ratings-counter.py

当我运行上述命令时,spark使用的内核是从node-1还是node-2发出的,还是随机分配的?

2.如果我不使用执行者数量,spark默认使用的执行者是什么?

from pyspark import SparkConf, SparkContext
import collections


conf = SparkConf().setMaster("hadoop-master").setAppName("RatingsHistogram")
sc = SparkContext(conf = conf)

lines = sc.textFile("hdfs://hadoop-master:8020/user/hduser/gutenberg/ml-10M100K/ratings.dat")
ratings = lines.map(lambda x: x.split('::')[2])
result = ratings.countByValue()

sortedResults = collections.OrderedDict(sorted(result.items()))
for key, value in sortedResults.items():
    print("%s %i" % (key, value))

是从node-1还是node-2还是随机分配?

这实际上取决于您初始化了多少工人。 由于您在spark-submit cmd中总共指定了4个执行程序,因此每个执行程序将从Spark Worker的总内存和内核中分配4gb内存和4个内核。 一种查看每个执行程序在哪个节点启动的简单方法是检查Spark的主UI(默认端口为8080),然后从中选择正在运行的应用程序。 然后,您可以在应用程序的UI中检查“执行者”选项卡。

如果我不使用执行者数量,那么spark默认使用的执行者是什么?

通常,它为每个工作程序实例初始化一个执行程序,并使用所有工作程序的资源。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM