簡體   English   中英

Out of memory error when converting pandas dataframe to pyspark dataframe

[英]Out of memory error when converting pandas dataframe to pyspark dataframe

我有一個 pandas dataframe 由 180M 行和 4 列(所有整數)組成。 我將它保存為泡菜文件,文件為 5.8GB。 I'm trying to convert the pandas dataframe to pyspark dataframe using spark_X = spark.createDataFrame(X) , but keep getting a "out of memory" error.

錯誤片段是

Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.readRDDFromFile. : java.lang.OutOfMemoryError: Java heap space

我有超過 200GB 的 memory,我不認為缺少物理 memory 是問題所在。 我讀到有多個 memory 限制,例如驅動程序 memory - 這可能是原因嗎?

我該如何解決或解決此問題?

正如@bzu 所建議的, 這里的答案解決了我的問題。

不過,我確實必須手動創建$SPARK_HOME/conf文件夾和spark-defaults.conf文件,因為它們不存在。 另外,我將設置更改為

spark.driver.memory 32g

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM