[英]In Spark's Structured Streaming is there a Streaming Context equivalent like there is in Spark Streaming?
[英]Spark structured streaming on k8s
我們正在使用 spark 2.4.3 運行結構化流處理過程,該過程從 kafka 讀取數據,轉換數據(使用 udf 壓平並創建一些列),然后將數據寫回 kafka 到不同的主題。 流正在處理時間是每兩分鍾。 10-12 小時后,我們注意到由於高內存消耗,我們的 pod 正在下降。 正如我上面解釋的,我們沒有聚合,也沒有在數據集上使用持久化。 我們注意到堆內存在不斷增長。 任何的想法?
我們找到了該問題的解決方案,花了一段時間,顯然 spark 保存了用於 UI 的對象,盡管我們將 spark 配置為使用 spark.ui.enabled: false 運行,但該集合仍在不斷增長。 解決方案是使用配置 parma spark.sql.ui.retainedExecutions 來限制它。 spark sql ui data我們很容易重現內存問題,因為我們的數據集有大約 300 列,因此 UI 保存的數據非常大。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.