![](/img/trans.png)
[英]Py4JJavaError: An error occurred while calling o389.parquet when trying to write rdd dataframe as parquet files on local directory
[英]Py4JJavaError: An error occured while calling o8660.save when trying to save csv file locally
恐怕它不會那樣工作,因為在本地保存數據意味着它必須全部存在於驅動程序中。 Per pyspark docs , the path
parameter in pyspark.sql.DataFrameWriter.csv
is a "path in any Hadoop supported file system" .
據我所知,有幾種選擇:
hdfs dfs -mget...
這將是最直接和首選的方式。df.collect()
將完整的 dataframe 帶到驅動程序,然后將其寫入本地 FS。 這對於大型數據幀可能不可行,因為它可能會使驅動程序因 OOM 而崩潰。df.toLocalIterator()
一次將數據帶到驅動程序一個分區,然后將其寫入本地 FS。 這避免/減少了先前選項帶來的 OOM 機會。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.