無法在 AWS EMR 上使用 PySpark Dataframe 保存 CSV 文件

Question

我想用 gzip 壓縮保存一個 CSV 文件。 代碼運行成功，但無聲無息地失敗了 -即我在提供的路徑上看不到文件。

我嘗試讀取應該成功保存的文件，但是在運行命令file -i <path_to_the_file>后我得到的是“找不到這樣的文件”。

我編寫 csv 文件的代碼是：

>>> df
DataFrame[id: int, name: string, alignment: string, gender: string, eyecolor: string, race: string, haircolor: string, publisher: string, skincolor: string, height: int, weight: int, _paseena_row_number_: bigint, _paseena_timestamp_: timestamp, _paseena_commit_id_: string]
>>> df.write.csv('check_csv_post_so.csv')
>>>

現在，當我檢查時，不存在文件。

我會使用一些 dfs 未知的方法，但問題是，我在其他機器上使用過 spark 並沒有發現這樣的問題。

我希望文件存在或代碼失敗並顯示錯誤。

Answer 1

我認為文件存儲在 HDFS 上。 嘗試使用file://或s3://保存文件。 或者使用hdfs dfs -ls查看文件是否存在。

無法在 AWS EMR 上使用 PySpark Dataframe 保存 CSV 文件

問題描述

1 個解決方案

解決方案1
1 2019-07-12 10:09:52

無法在 AWS EMR 上使用 PySpark Dataframe 保存 CSV 文件

問題描述

1 個解決方案

解決方案1 1 2019-07-12 10:09:52

解決方案1
1 2019-07-12 10:09:52