Py4JJavaError：嘗試在本地保存 csv 文件時調用 o8660.save 時發生錯誤

Question

我想在本地保存 csv 文件，而不是將其保存到 Hadoop 文件系統。 當我使用以開頭的路徑時出現以下錯誤

> 'file://'

我該如何解決這個問題？ 或者如何在本地保存文件而不會出現任何錯誤？

Answer 1

恐怕它不會那樣工作，因為在本地保存數據意味着它必須全部存在於驅動程序中。 Per pyspark docs , the path parameter in pyspark.sql.DataFrameWriter.csv is a "path in any Hadoop supported file system" .

據我所知，有幾種選擇：

將dataframe保存到HDFS/Hadoop，然后復制到本地FS hdfs dfs -mget... 這將是最直接和首選的方式。
執行df.collect()將完整的 dataframe 帶到驅動程序，然后將其寫入本地 FS。 這對於大型數據幀可能不可行，因為它可能會使驅動程序因 OOM 而崩潰。
使用df.toLocalIterator()一次將數據帶到驅動程序一個分區，然后將其寫入本地 FS。 這避免/減少了先前選項帶來的 OOM 機會。

Py4JJavaError：嘗試在本地保存 csv 文件時調用 o8660.save 時發生錯誤

問題描述

1 個解決方案

解決方案1
0 2022-01-20 17:34:37

Py4JJavaError：嘗試在本地保存 csv 文件時調用 o8660.save 時發生錯誤

問題描述

1 個解決方案

解決方案1 0 2022-01-20 17:34:37

解決方案1
0 2022-01-20 17:34:37