Spark如何在寫入時/寫入后為DataFrame指定結果文件數

Question

我看到了幾個有關將單個文件寫入hdfs的問題，看來使用coalesce(1)就足夠了。

例如;

df.coalesce(1).write.mode("overwrite").format(format).save(location)

但是，如何指定保存操作后將寫入的“確切”文件數？

所以我的問題是；

如果我在進行寫操作時具有包含100個分區的數據幀，它將寫入100個文件嗎？

如果在調用repartition(50)/coalsesce(50)后進行寫操作時，如果我的數據幀包含100個分區，它將寫入50個文件嗎？

spark中有沒有一種方法可以在將數據幀寫入HDFS時指定文件的最終數量？

謝謝

Answer 1

輸出文件的數量通常等於寫入任務（分區）的數量。 在正常情況下，它不能較小（每個作者都寫自己的部分，並且多個任務不能寫入同一文件），但是如果格式具有非標准行為或使用partitionBy ，則可以較大。

一般

如果我在進行寫操作時具有包含100個分區的數據幀，它將寫入100個文件嗎？

是

如果在調用repartition（50）/ coalsesce（50）后進行寫操作時，如果我的數據幀包含100個分區，它將寫入50個文件嗎？

是的。

spark中有沒有一種方法可以在將數據幀寫入HDFS時指定文件的最終數量？

沒有。