繁体   English   中英

Spark避免分区覆盖

[英]Spark avoid partition overwrite

我正在编写一个将日志数据保存到目录/logroot的Spark应用程序。

我的代码是

myDF.mode('overwrite').partitionBy('date','site').save('logroot')

我想使用overwrite模式,以便每周一次多次重新处理所有每日数据。

我担心的是, overwrite清除所有logroot目录,而不仅是所涉及的分区。

我怎么解决这个问题?

在撰写本文时,最好的解决方案似乎是:

  • 从初始数据框中提取应清除的分区名称
  • 使用hadoop fs api清理这些分区
  • 使用append mode保存数据框

感谢所有人的帮助,并希望Spark伙计们将提供一个更优雅的解决方案选项。

罗伯托

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM