簡體 English 中英

k8s 上的 Spark 結構化流

[英]Spark structured streaming on k8s

原文 2019-07-08 06:24:24 8 1 apache-spark/ spark-structured-streaming

我們正在使用 spark 2.4.3 運行結構化流處理過程，該過程從 kafka 讀取數據，轉換數據（使用 udf 壓平並創建一些列），然后將數據寫回 kafka 到不同的主題。 流正在處理時間是每兩分鍾。 10-12 小時后，我們注意到由於高內存消耗，我們的 pod 正在下降。 正如我上面解釋的，我們沒有聚合，也沒有在數據集上使用持久化。 我們注意到堆內存在不斷增長。 任何的想法？

1 個解決方案

我們找到了該問題的解決方案，花了一段時間，顯然 spark 保存了用於 UI 的對象，盡管我們將 spark 配置為使用 spark.ui.enabled: false 運行，但該集合仍在不斷增長。 解決方案是使用配置 parma spark.sql.ui.retainedExecutions 來限制它。 spark sql ui data我們很容易重現內存問題，因為我們的數據集有大約 300 列，因此 UI 保存的數據非常大。

在Spark的結構化流中，是否存在與Spark流中相同的流上下文？

[英]In Spark's Structured Streaming is there a Streaming Context equivalent like there is in Spark Streaming?

K8s Spark Job JAR 參數

[英]K8s Spark Job JAR params

spark-operator 登錄 k8s

[英]spark-operator logging in k8s

k8s 上的 Spark - emptyDir 未安裝到目錄

[英]Spark on k8s - emptyDir not mounted to directory

使用 Argo 工作流的 K8S Spark

[英]K8S Spark using Argo Workflow

在 k8s 集群中 Spark 提交失敗

[英]Spark submit fails in k8s Cluster

Apache Spark的結構化流媒體與谷歌PubSub

[英]Apache Spark’s Structured Streaming with Google PubSub

S3的Spark結構化流啟動失敗

[英]Spark Structured Streaming with S3 fails comitting

登錄spark結構化流媒體

[英]Logging in spark structured streaming

在 Spark Structured Streaming 中排名

[英]Ranking in Spark Structured Streaming

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 在Spark的結構化流中，是否存在與Spark流中相同的流上下文？ K8s Spark Job JAR 參數 spark-operator 登錄 k8s k8s 上的 Spark - emptyDir 未安裝到目錄使用 Argo 工作流的 K8S Spark 在 k8s 集群中 Spark 提交失敗 Apache Spark的結構化流媒體與谷歌PubSub S3的Spark結構化流啟動失敗登錄spark結構化流媒體在 Spark Structured Streaming 中排名

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM