繁体   English   中英

PySpark:java.lang.OutofMemoryError:Java 堆空间

[英]PySpark: java.lang.OutofMemoryError: Java heap space

我最近在我的服务器上使用 PySpark 和 Ipython,它有 24 个 CPU 和 32GB RAM。 它只在一台机器上运行。 在我的过程中,我想收集以下代码中给出的大量数据:

train_dataRDD = (train.map(lambda x:getTagsAndText(x))
.filter(lambda x:x[-1]!=[])
.flatMap(lambda (x,text,tags): [(tag,(x,text)) for tag in tags])
.groupByKey()
.mapValues(list))

当我做

training_data =  train_dataRDD.collectAsMap()

它给了我 outOfMemory 错误。 Java heap Space 此外,在出现此错误后,我无法对 Spark 执行任何操作,因为它与 Java 失去了连接。 它给出了Py4JNetworkError: Cannot connect to the java server

看起来堆空间很小。 如何将其设置为更大的限制?

编辑

我在运行之前尝试过的事情: sc._conf.set('spark.executor.memory','32g').set('spark.driver.memory','32g').set('spark.driver.maxResultsSize','0')

我根据此处的文档更改了 spark 选项(如果您执行 ctrl-f 并搜索 spark.executor.extraJavaOptions): http ://spark.apache.org/docs/1.2.1/configuration.html

它说我可以通过设置 spark.executor.memory 选项来避免 OOM。 我做了同样的事情,但似乎不起作用。

在尝试了大量配置参数后,我发现只需要更改一个即可启用更多 Heap 空间,即spark.driver.memory

sudo vim $SPARK_HOME/conf/spark-defaults.conf
#uncomment the spark.driver.memory and change it according to your use. I changed it to below
spark.driver.memory 15g
# press : and then wq! to exit vim editor

关闭现有的 Spark 应用程序并重新运行它。 您不会再次遇到此错误。 :)

如果您正在寻找从脚本或 jupyter 笔记本中设置它的方法,您可以执行以下操作:

from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .master('local[*]') \
    .config("spark.driver.memory", "15g") \
    .appName('my-cool-app') \
    .getOrCreate()

我在pyspark遇到了同样的问题(与brew一起安装)。 就我而言,它安装在路径/usr/local/Cellar/apache-spark

我唯一的配置文件在apache-spark/2.4.0/libexec/python//test_coverage/conf/spark-defaults.conf

正如这里所建议的我在路径/usr/local/Cellar/apache-spark/2.4.0/libexec/conf/spark-defaults.conf创建了文件spark-defaults.conf并附加了一行spark.driver.memory 12g

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM