Out of memory error when converting pandas dataframe to pyspark dataframe

Question

我有一个 pandas dataframe 由 180M 行和 4 列（所有整数）组成。 我将它保存为泡菜文件，文件为 5.8GB。 I'm trying to convert the pandas dataframe to pyspark dataframe using spark_X = spark.createDataFrame(X) , but keep getting a "out of memory" error.

错误片段是

Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.readRDDFromFile. : java.lang.OutOfMemoryError: Java heap space

我有超过 200GB 的 memory，我不认为缺少物理 memory 是问题所在。 我读到有多个 memory 限制，例如驱动程序 memory - 这可能是原因吗？

我该如何解决或解决此问题？

Answer 1

正如@bzu 所建议的，这里的答案解决了我的问题。

不过，我确实必须手动创建$SPARK_HOME/conf文件夹和spark-defaults.conf文件，因为它们不存在。 另外，我将设置更改为

spark.driver.memory 32g

Out of memory error when converting pandas dataframe to pyspark dataframe

问题描述

1 个解决方案

解决方案1
0 2022-08-16 10:33:49

Out of memory error when converting pandas dataframe to pyspark dataframe

问题描述

1 个解决方案

解决方案1 0 2022-08-16 10:33:49

解决方案1
0 2022-08-16 10:33:49