繁体   English   中英

Out of memory error when converting pandas dataframe to pyspark dataframe

[英]Out of memory error when converting pandas dataframe to pyspark dataframe

我有一个 pandas dataframe 由 180M 行和 4 列(所有整数)组成。 我将它保存为泡菜文件,文件为 5.8GB。 I'm trying to convert the pandas dataframe to pyspark dataframe using spark_X = spark.createDataFrame(X) , but keep getting a "out of memory" error.

错误片段是

Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.readRDDFromFile. : java.lang.OutOfMemoryError: Java heap space

我有超过 200GB 的 memory,我不认为缺少物理 memory 是问题所在。 我读到有多个 memory 限制,例如驱动程序 memory - 这可能是原因吗?

我该如何解决或解决此问题?

正如@bzu 所建议的, 这里的答案解决了我的问题。

不过,我确实必须手动创建$SPARK_HOME/conf文件夹和spark-defaults.conf文件,因为它们不存在。 另外,我将设置更改为

spark.driver.memory 32g

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM