[英]Out of memory error when converting pandas dataframe to pyspark dataframe
我有一个 pandas dataframe 由 180M 行和 4 列(所有整数)组成。 我将它保存为泡菜文件,文件为 5.8GB。 I'm trying to convert the pandas dataframe to pyspark dataframe using spark_X = spark.createDataFrame(X)
, but keep getting a "out of memory" error.
错误片段是
Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.readRDDFromFile. : java.lang.OutOfMemoryError: Java heap space
我有超过 200GB 的 memory,我不认为缺少物理 memory 是问题所在。 我读到有多个 memory 限制,例如驱动程序 memory - 这可能是原因吗?
我该如何解决或解决此问题?
正如@bzu 所建议的, 这里的答案解决了我的问题。
不过,我确实必须手动创建$SPARK_HOME/conf
文件夹和spark-defaults.conf
文件,因为它们不存在。 另外,我将设置更改为
spark.driver.memory 32g
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.