[英]Unable to save a CSV file using PySpark Dataframe on AWS EMR
我想用 gzip 壓縮保存一個 CSV 文件。 代碼運行成功,但無聲無息地失敗了 -即我在提供的路徑上看不到文件。
我嘗試讀取應該成功保存的文件,但是在運行命令file -i <path_to_the_file>
后我得到的是“找不到這樣的文件”。
我編寫 csv 文件的代碼是:
>>> df
DataFrame[id: int, name: string, alignment: string, gender: string, eyecolor: string, race: string, haircolor: string, publisher: string, skincolor: string, height: int, weight: int, _paseena_row_number_: bigint, _paseena_timestamp_: timestamp, _paseena_commit_id_: string]
>>> df.write.csv('check_csv_post_so.csv')
>>>
現在,當我檢查時,不存在文件。
我會使用一些 dfs 未知的方法,但問題是,我在其他機器上使用過 spark 並沒有發現這樣的問題。
我希望文件存在或代碼失敗並顯示錯誤。
我認為文件存儲在 HDFS 上。 嘗試使用file://
或s3://
保存文件。 或者使用hdfs dfs -ls
查看文件是否存在。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.