簡體   English   中英

pyspark 分區為每個分區創建一個額外的空文件

[英]pyspark partitioning create an extra empty file for every partition

我在 Azure Databricks 中遇到一個問題。 在我的筆記本中,我正在執行帶分區的簡單寫入命令:

df.write.format('parquet').partitionBy("startYear").save(output_path,header=True)

我看到這樣的事情: 在此處輸入圖像描述

有人可以解釋為什么 spark 為每個分區創建這個額外的空文件以及如何禁用它嗎?

我嘗試了不同的寫入模式、不同的分區和 spark 版本

當我使用 Blob 存儲時,我復制了上面的內容並得到了相同的結果。

在此處輸入圖像描述

有人可以解釋為什么 spark 為每個分區創建這個額外的空文件以及如何禁用它嗎?

Spark 不會創建這些類型的文件。 當我們按分區創建 parquet 文件時,Blob Storage 會像上面那樣創建 blob

如果您使用 Blob 存儲,我們無法避免這些。 您可以使用 ADLS Storage 來避免它

這些是我的 ADLS 結果:

在此處輸入圖像描述

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM