[英]Pyspark dataframe to Pandas Dataframe
正在得到以下
將pyspark數據框轉換為Pandas數據框時出錯
碼:
some_df = sc.parallelize([
("A", "no"),
("B", "yes"),
("B", "yes"),
("B", "no")]
).toDF(["user_id", "phone_number"])
pandas_df = some_df.toPandas()
錯誤: Py4JJavaError:調用o104.collectToPython時發生錯誤。
它在我檢查的系統中運行良好,當Spark希望將所有數據加載到驅動程序內存中時,會出現此錯誤,因此可能您沒有足夠的內存來增加應該解決問題的驅動程序內存或使用gc.collect()
清除垃圾gc.collect()
讓我知道是否有幫助。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.