簡體 English 中英

使用 PySpark 僅保存所需的 CSV 文件

[英]Save only the required CSV file using PySpark

原文 2021-06-18 16:30:37 1 2 python/ csv/ pyspark

我對 PySpark 很陌生，我正在嘗試使用 Azure Databricks 讀取並保存 CSV 文件。

保存文件后，我看到許多其他文件，如“_Committed”、“_Started”、“_Success”，最后是名稱完全不同的 CSV 文件。

我已經使用 DataFrame repartition repartition(1)和coalesce(1)但這僅在 CSV 文件本身由 Spark 分區時處理。 有什么可以使用 PySpark 完成的嗎？

2 個解決方案

您可以執行以下操作：

df.toPandas().to_csv(path/to/file.csv)

它將按照您的預期創建單個文件 csv。

這些是從 PySpark 保存時創建的默認日志文件。 我們無法消除這一點。 使用coalesce(1) 可以保存在沒有分區的單個文件中。

如何使用 pyspark 將 csv 文件轉換或保存為 txt 文件

[英]how to convert or save a csv file into a txt file using pyspark

如何使用 pyspark 將 DataFrame 保存為 csv 文件？

[英]How to save a DataFrame as a csv-file using pyspark?

無法在 AWS EMR 上使用 PySpark Dataframe 保存 CSV 文件

[英]Unable to save a CSV file using PySpark Dataframe on AWS EMR

如何使用python對csv文件進行排序並僅選擇所需的數據？

[英]How to sort csv file and select only required data using python?

使用python從csv文件中僅獲取所需的行

[英]Get only the required lines from a csv file using python

如何使用python將所需的行從一個csv文件復制到另一個csv文件？

[英]How do I copy only the required rows from one csv file to other csv file using python?

如何使用自定義文件名將 PySpark 數據框另存為 CSV？

[英]How to save a PySpark dataframe as a CSV with custom file name?

使用 pyspark 從 CSV 文件中拆分字段

[英]Splitting fields from a CSV file using pyspark

處理 CSV 文件中的 JSON 對象並保存到 PySpark DataFrame

[英]Handle JSON objects in CSV File and save to PySpark DataFrame

如何使用 PySpark 將 csv 文件轉換為 avro 文件？

[英]How to convert a csv file to an avro file using PySpark?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何使用 pyspark 將 csv 文件轉換或保存為 txt 文件如何使用 pyspark 將 DataFrame 保存為 csv 文件？無法在 AWS EMR 上使用 PySpark Dataframe 保存 CSV 文件如何使用python對csv文件進行排序並僅選擇所需的數據？使用python從csv文件中僅獲取所需的行如何使用python將所需的行從一個csv文件復制到另一個csv文件？如何使用自定義文件名將 PySpark 數據框另存為 CSV？使用 pyspark 從 CSV 文件中拆分字段處理 CSV 文件中的 JSON 對象並保存到 PySpark DataFrame 如何使用 PySpark 將 csv 文件轉換為 avro 文件？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM