簡體   English   中英

使用 PySpark 僅保存所需的 CSV 文件

[英]Save only the required CSV file using PySpark

我對 PySpark 很陌生,我正在嘗試使用 Azure Databricks 讀取並保存 CSV 文件。

保存文件后,我看到許多其他文件,如“_Committed”、“_Started”、“_Success”,最后是名稱完全不同的 CSV 文件。

我已經使用 DataFrame repartition repartition(1)coalesce(1)但這僅在 CSV 文件本身由 Spark 分區時處理。 有什么可以使用 PySpark 完成的嗎?

您可以執行以下操作:

df.toPandas().to_csv(path/to/file.csv)

它將按照您的預期創建單個文件 csv。

這些是從 PySpark 保存時創建的默認日志文件。 我們無法消除這一點。 使用coalesce(1) 可以保存在沒有分區的單個文件中。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM