[英]Out of memory error when converting pandas dataframe to pyspark dataframe
我有一個 pandas dataframe 由 180M 行和 4 列(所有整數)組成。 我將它保存為泡菜文件,文件為 5.8GB。 I'm trying to convert the pandas dataframe to pyspark dataframe using spark_X = spark.createDataFrame(X)
, but keep getting a "out of memory" error.
錯誤片段是
Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.readRDDFromFile. : java.lang.OutOfMemoryError: Java heap space
我有超過 200GB 的 memory,我不認為缺少物理 memory 是問題所在。 我讀到有多個 memory 限制,例如驅動程序 memory - 這可能是原因嗎?
我該如何解決或解決此問題?
正如@bzu 所建議的, 這里的答案解決了我的問題。
不過,我確實必須手動創建$SPARK_HOME/conf
文件夾和spark-defaults.conf
文件,因為它們不存在。 另外,我將設置更改為
spark.driver.memory 32g
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.