簡體   English   中英

Spark如何在寫入時/寫入后為DataFrame指定結果文件數

[英]Spark How to Specify Number of Resulting Files for DataFrame While/After Writing

我看到了幾個有關將單個文件寫入hdfs的問題,看來使用coalesce(1)就足夠了。

例如;

df.coalesce(1).write.mode("overwrite").format(format).save(location)

但是,如何指定保存操作后將寫入的“確切”文件數?

所以我的問題是;

如果我在進行寫操作時具有包含100個分區的數據幀,它將寫入100個文件嗎?

如果在調用repartition(50)/coalsesce(50)后進行寫操作時,如果我的數據幀包含100個分區,它將寫入50個文件嗎?

spark中有沒有一種方法可以在將數據幀寫入HDFS時指定文件的最終數量?

謝謝

輸出文件的數量通常等於寫入任務(分區)的數量。 在正常情況下,它不能較小(每個作者都寫自己的部分,並且多個任務不能寫入同一文件),但是如果格式具有非標准行為或使用partitionBy ,則可以較大。

一般

如果我在進行寫操作時具有包含100個分區的數據幀,它將寫入100個文件嗎?

如果在調用repartition(50)/ coalsesce(50)后進行寫操作時,如果我的數據幀包含100個分區,它將寫入50個文件嗎?

是的。

spark中有沒有一種方法可以在將數據幀寫入HDFS時指定文件的最終數量?

沒有。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM