繁体 English 中英

从Python运行Spark时Java堆大小错误

[英]Java heap size error when running Spark from Python

原文 2016-10-26 15:30:32 0 1 java/ python/ apache-spark/ pyspark

我正在尝试使用pyspark库运行Python脚本。 我使用以下命令创建一个SparkConf()对象：

conf = SparkConf().setAppName('test').setMaster(<spark-URL>)

当我运行脚本时，该行会出现错误：

提起_JAVA_OPTIONS：-Xmx128m

提起_JAVA_OPTIONS：-Xmx128m

VM初始化期间发生错误初始堆大小设置为大于最大堆大小的值。

我试图通过将配置属性spark.driver.memory设置为各种值来解决此问题，但未进行任何更改。

有什么问题，我该如何解决？

谢谢

1 个解决方案

这是因为您将最大可用堆大小（128M）设置为大于初始堆大小错误。 检查您正在传递或在配置文件中设置的_JAVA_OPTIONS参数。 另外，请注意spark.driver.memory中的更改不会产生任何影响，因为Worker实际上位于在启动spark-shell时启动的驱动程序JVM进程内，并且用于该进程的默认内存为512M。

当spark尝试初始化等于512M的堆大小时，这会产生冲突，但是您设置的最大允许限制仅为128M。

您可以通过--driver-java-options命令行选项或在默认属性文件中设置最小堆大小