[英]Spark Structured Streaming Memory Bound
我正在處理100 Mb / s的平均負載流。 我有六個執行器,每個執行器分配了12 Gb的內存。 但是,由於數據加載,我在幾分鍾之內就收到了火花執行器中的內存不足錯誤(錯誤52)。 看來即使星火據幀的概念無限它是由總執行內存為界?
我的想法是在大約每五分鍾內將數據幀/流保存為鑲木地板。 但是,似乎火花之后沒有清除數據幀的直接機制了嗎?
val out = df.
writeStream.
format("parquet").
option("path", "/applications/data/parquet/customer").
option("checkpointLocation", "/checkpoints/customer/checkpoint").
trigger(Trigger.ProcessingTime(300.seconds)).
outputMode(OutputMode.Append).
start
似乎沒有直接的方法可以做到這一點。 由於這與常規Spark模型沖突,因此在發生故障時可以重新運行操作 。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.