簡體   English   中英

無法在 AWS EMR 上使用 PySpark Dataframe 保存 CSV 文件

[英]Unable to save a CSV file using PySpark Dataframe on AWS EMR

我想用 gzip 壓縮保存一個 CSV 文件。 代碼運行成功,但無聲無息地失敗了 -我在提供的路徑上看不到文件。

我嘗試讀取應該成功保存的文件,但是在運行命令file -i <path_to_the_file>后我得到的是“找不到這樣的文件”。

我編寫 csv 文件的代碼是:

>>> df
DataFrame[id: int, name: string, alignment: string, gender: string, eyecolor: string, race: string, haircolor: string, publisher: string, skincolor: string, height: int, weight: int, _paseena_row_number_: bigint, _paseena_timestamp_: timestamp, _paseena_commit_id_: string]
>>> df.write.csv('check_csv_post_so.csv')
>>>

現在,當我檢查時,不存在文件。

我會使用一些 dfs 未知的方法,但問題是,我在其他機器上使用過 spark 並沒有發現這樣的問題。

我希望文件存在或代碼失敗並顯示錯誤。

我認為文件存儲在 HDFS 上。 嘗試使用file://s3://保存文件。 或者使用hdfs dfs -ls查看文件是否存在。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM