[英]how to convert or save a csv file into a txt file using pyspark
[英]Save only the required CSV file using PySpark
我對 PySpark 很陌生,我正在嘗試使用 Azure Databricks 讀取並保存 CSV 文件。
保存文件后,我看到許多其他文件,如“_Committed”、“_Started”、“_Success”,最后是名稱完全不同的 CSV 文件。
我已經使用 DataFrame repartition repartition(1)
和coalesce(1)
但這僅在 CSV 文件本身由 Spark 分區時處理。 有什么可以使用 PySpark 完成的嗎?
您可以執行以下操作:
df.toPandas().to_csv(path/to/file.csv)
它將按照您的預期創建單個文件 csv。
這些是從 PySpark 保存時創建的默認日志文件。 我們無法消除這一點。 使用coalesce(1) 可以保存在沒有分區的單個文件中。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.