[英]Spark: LeaseExpiredException while writing large dataframe to parquet files
[英]Spark How to Specify Number of Resulting Files for DataFrame While/After Writing
我看到了幾個有關將單個文件寫入hdfs的問題,看來使用coalesce(1)
就足夠了。
例如;
df.coalesce(1).write.mode("overwrite").format(format).save(location)
但是,如何指定保存操作后將寫入的“確切”文件數?
所以我的問題是;
如果我在進行寫操作時具有包含100個分區的數據幀,它將寫入100個文件嗎?
如果在調用repartition(50)/coalsesce(50)
后進行寫操作時,如果我的數據幀包含100個分區,它將寫入50個文件嗎?
spark中有沒有一種方法可以在將數據幀寫入HDFS時指定文件的最終數量?
謝謝
輸出文件的數量通常等於寫入任務(分區)的數量。 在正常情況下,它不能較小(每個作者都寫自己的部分,並且多個任務不能寫入同一文件),但是如果格式具有非標准行為或使用partitionBy
,則可以較大。
一般
如果我在進行寫操作時具有包含100個分區的數據幀,它將寫入100個文件嗎?
是
如果在調用repartition(50)/ coalsesce(50)后進行寫操作時,如果我的數據幀包含100個分區,它將寫入50個文件嗎?
是的。
spark中有沒有一種方法可以在將數據幀寫入HDFS時指定文件的最終數量?
沒有。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.