簡體   English   中英

k8s 上的 Spark 結構化流

[英]Spark structured streaming on k8s

我們正在使用 spark 2.4.3 運行結構化流處理過程,該過程從 kafka 讀取數據,轉換數據(使用 udf 壓平並創建一些列),然后將數據寫回 kafka 到不同的主題。 流正在處理時間是每兩分鍾。 10-12 小時后,我們注意到由於高內存消耗,我們的 pod 正在下降。 正如我上面解釋的,我們沒有聚合,也沒有在數據集上使用持久化。 我們注意到堆內存在不斷增長。 任何的想法?

我們找到了該問題的解決方案,花了一段時間,顯然 spark 保存了用於 UI 的對象,盡管我們將 spark 配置為使用 spark.ui.enabled: false 運行,但該集合仍在不斷增長。 解決方案是使用配置 parma spark.sql.ui.retainedExecutions 來限制它。 spark sql ui data我們很容易重現內存問題,因為我們的數據集有大約 300 列,因此 UI 保存的數據非常大。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM