簡體   English   中英

Spark結構化流存儲綁定

[英]Spark Structured Streaming Memory Bound

我正在處理100 Mb / s的平均負載流。 我有六個執行器,每個執行器分配了12 Gb的內存。 但是,由於數據加載,我在幾分鍾之內就收到了火花執行器中的內存不足錯誤(錯誤52)。 看來即使星火據幀的概念無限它是由總執行內存為界?

我的想法是在大約每五分鍾內將數據幀/流保存為鑲木地板。 但是,似乎火花之后沒有清除數據幀的直接機制了嗎?

val out = df.
  writeStream.
  format("parquet").
  option("path", "/applications/data/parquet/customer").
  option("checkpointLocation", "/checkpoints/customer/checkpoint").
  trigger(Trigger.ProcessingTime(300.seconds)).
  outputMode(OutputMode.Append).
  start

似乎沒有直接的方法可以做到這一點。 由於這與常規Spark模型沖突,因此在發生故障時可以重新運行操作

不過,我將分享相同情感的評論在08 /二月/ 18 13:21這個問題

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM