Out of memory error when converting pandas dataframe to pyspark dataframe

Question

我有一個 pandas dataframe 由 180M 行和 4 列（所有整數）組成。 我將它保存為泡菜文件，文件為 5.8GB。 I'm trying to convert the pandas dataframe to pyspark dataframe using spark_X = spark.createDataFrame(X) , but keep getting a "out of memory" error.

錯誤片段是

Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.readRDDFromFile. : java.lang.OutOfMemoryError: Java heap space

我有超過 200GB 的 memory，我不認為缺少物理 memory 是問題所在。 我讀到有多個 memory 限制，例如驅動程序 memory - 這可能是原因嗎？

我該如何解決或解決此問題？

Answer 1

正如@bzu 所建議的，這里的答案解決了我的問題。

不過，我確實必須手動創建$SPARK_HOME/conf文件夾和spark-defaults.conf文件，因為它們不存在。 另外，我將設置更改為

spark.driver.memory 32g

Out of memory error when converting pandas dataframe to pyspark dataframe

問題描述

1 個解決方案

解決方案1
0 2022-08-16 10:33:49

Out of memory error when converting pandas dataframe to pyspark dataframe

問題描述

1 個解決方案

解決方案1 0 2022-08-16 10:33:49

解決方案1
0 2022-08-16 10:33:49