標簽[spark-streaming-kafka] - 堆棧內存溢出

[英]Async Checkpointing in Spark Structured Streaming using RocksDB

我目前正在探索在 Spark Structured streaming 中啟用異步檢查點，但找不到任何方法。 DataBricks 為其 Spark 風格提供相同的功能。 Spark 結構化流 3.3.1 和 RocksDB 7.7.3 任何建議都一樣。 ...

無法通過 pyspark 中的卡夫卡火花流讀取數據

[英]Not able to read data through kafka spark streaming in pyspark

我正在創建一個基本的流應用程序，它從 kafka 讀取流數據並處理數據。下面是我在 pyspark 中嘗試的代碼我在這里使用readStream進行流式傳輸。我正在使用數據塊來運行代碼。我能夠連接到 kafka 集群。但是當我嘗試打印 dataframe 時，代碼卡住了。什么都沒發生。 ...

Spark 推測性任務及其性能開銷

[英]Spark speculative tasks and its performance overhead

我目前正在探索 spark 的投機任務選項。以下是我打算使用的配置。我正在從 kafka 讀取數據並使用repartition()在流代碼中創建大約 200 多個任務。以上關於推測任務的配置是否會對我的流式作業的整體性能產生任何影響？如果是這樣，在使用 spark 的推測任務選項時是否 ...

Spark結構化流式作業未處理階段並顯示為掛起狀態

[英]Spark structured streaming job not processing stages and showing in hung state

我正在運行一個流應用程序並使用 spark 處理從 Kafka 到 Kafka 的數據。如果我使用最新的，那么它按預期工作並且運行沒有任何問題。但在源代碼中，我們已經完成了批量交易（200 000）並使用最早的然后處理數據。在這種情況下，我們的 Spark 作業不會處理數據，並且在 3 個階 ...

Spark Stucture 流式處理已處理失敗記錄

[英]Spark Stucture streaming processing already processed record on failure

我在火花結構流中遇到了非常奇怪的問題。每當我關閉 stream 並再次重新啟動時，它都會再次處理已處理的記錄。我嘗試使用 spark.conf.set("spark.streaming.stopGracefullyOnShutdown", True) 但我仍然遇到問題。任何建議如何擺脫這個問題 ...

Apache Spark 與 kafka stream - 缺少 Kafka

[英]Apache Spark with kafka stream - Missing Kafka

我試圖用 kafka 設置 Apache Spark，並在本地編寫了簡單的程序，但它失敗了，無法從調試中找出答案。 build.gradle.kts 主要function密碼是並收到錯誤： ...

從 Kafka 到 Elastic Search 的 Spark 結構化流

[英]Spark Structured Streaming from Kafka to Elastic Search

我想寫一個從 Kafka 到 Elasticsearch 的 Spark Streaming Job。在這里，我想在從 Kafka 讀取模式時動態檢測模式。你能幫我這樣做嗎？我知道，這可以通過下一行在 Spark 批處理中完成。 val schema = spark.read.json(dfK ...

帶有 Spark Streaming 錯誤的 foreach() 方法

[英]foreach() method with Spark Streaming errors

我正在嘗試每 120 秒將從 Kafka 提取的數據寫入 Bigquery 表。我想做一些額外的操作，通過文檔應該可以在.foreach()或foreachBatch()方法中進行。作為測試，我想在每次從 kafka 提取數據並寫入 BigQuery 時打印一條簡單的消息。我希望這條消息在 j ...

Spark 結構化流的源/目標格式的可用選項

[英]Available options for a source/destination format of Spark structured streaming

當我們將DataStreamReader API用於 Spark 中的格式時，我們使用option/options方法為所使用的格式指定選項。例如，在下面的代碼中，我使用Kafka作為源並通過option方法傳遞源所需的配置。這里我只使用了兩個選項 - server details and to ...

Spark 和 Kafka：如何提高生產者發送大量記錄的並行度以提高網絡使用率？

[英]Spark and Kafka: how to increase parallelism for producer sending large batch of records improving network usage?

我正在深入了解如何從 Spark 向 Kafka 主題發送（生成）大量記錄。從文檔中，我可以看到有人試圖在相同工作人員的任務中使用相同的生產者。當一次發送大量記錄時，網絡將成為瓶頸（以及內存，因為 kafka 會緩沖要發送的記錄）。所以我想知道提高網絡使用率的最佳配置是什么：更少的工 ...

我可以使用 Airflow 來啟動/停止 Spark 流作業嗎

[英]Can I use Airflow to start/stop spark streaming job

我有兩種類型的工作：Spark Batch 工作和 Spark 流工作。我想用氣流來安排和管理它們。任何人都可以給我一些想法。 ...

如何在pyspark中獲取結構化流數據幀的一行數據？

[英]How do I get the data of one row of a Structured Streaming Dataframe in pyspark?

我有一個 Kafka 代理，其主題與 Spark Structured Streaming 相關聯。我的主題將數據發送到我的流數據幀，我想獲取有關此主題每一行的信息（因為我需要將每一行與另一個數據庫進行比較）。如果我可以將我的批次轉換為 RDD，我可以輕松獲得每一行。我也看到了一些關於 DS ...

如何在 avro 模式中合並聯合類型的多個數據類型以在值字段中顯示一種數據類型而不是 member0 member1

[英]How to merge multiple datatypes of an union type in avro schema to show one data type in the value field instead of member0 member1

我有以下 avro 模式但是，當我通過 kafka 流式傳輸一些事件以激發此模式時，流式數據框架將數據字段描述為一個結構，其成員具有模式中指定的數據類型，如下圖所示。 dataframe 的模式格式是否有可能合並成員以僅顯示鍵的值而不是將其拆分並表示為多個成員所以喜歡number: -64 而 ...

Spark Streaming 從輸入數據中提取模式

[英]Spark Streaming extracting schema from input data

賞金將在 11 小時后到期。這個問題的答案有資格獲得+50聲望獎勵。 Madhu正在從信譽良好的來源尋找答案。 ...

java.io.IOException：無法將語句寫入batch_layer.test。最新的例外是 Key may not be empty

[英]java.io.IOException: Failed to write statements to batch_layer.test. The latest exception was Key may not be empty

我正在嘗試計算文本中的單詞數並將結果保存到 Cassandra 數據庫中。 Producer 從文件中讀取數據並發送給kafka。消費者使用火花流讀取和處理日期，然后將計算結果發送到表中。我的制作人是這樣的：消費者看起來像這樣：啟動生產者后，程序停止工作並出現此錯誤。我做錯了什么？ ...

提交 jar 文件時，控制台中未打印來自 Kafka 的數據。（Spark 流 + Kafka 集成 3.1.1）

[英]Data from Kafka is not printed in console when I submmited jar file. (Spark streaming + Kafka integration 3.1.1)

我提交 jar 文件時沒有錯誤。但是當我使用 HTTP 協議發送數據時，沒有打印數據。（當我使用“kafka-console-consumer.sh”檢查時，數據打印得很好） [圖片，提交了jar文件：數據未打印] jar 文件中的代碼和依賴項如下。【圖，Kafka-console ...

我想通過 sparkstreaming 保持作業運行

[英]I want to keep jobs running with sparkstreaming

是否可以一直保持流式傳輸作業運行？大約 24 小時后，它會吐出此錯誤並停止處理。我不太確定如何處理這個問題。 ssc.awaitTermination() 上面的代碼不總是運行嗎？ ...

Spark 流式傳輸：保留組中的最新值

[英]Spark streaming: keep the most recent value in a group

我有一個 stream 之類的我想使用火花流只為每個組保留最近的時間。用火花 dataframe 我會使用 window function 作為或者在火花流中執行相同操作的最佳方法是什么，以及如何以僅存儲最新解決方案的方式保存結果？更新：我試圖在最近的時間每組只保留一行。是否可以為此目的 ...

使用 Spark Structured Streaming 對超時傳感器數據進行分組

[英]Grouping sensor data overtime with Spark Structured Streaming

我們有傳感器每天多次啟動和運行隨機持續時間。來自傳感器的數據被發送到 Kafka 主題並由 Spark 結構化流 API 使用並存儲到 Delta Lake。現在我們必須識別每個傳感器的會話並將其存儲在不同的 Delta Lake 表中，該表由 device_id 和 sensor_id 分區。 ...

Spark Streaming：通過收到的 stream 密鑰從 HBase 讀取？

[英]Spark Streaming: Read from HBase by received stream keys?

將 Spark Streaming 中接收的數據與 HBase 中的現有數據進行比較的最佳方法是什么？我們從 kafka 作為 DStream 接收數據，在將其寫入 HBase 之前，我們必須根據從 kafka接收到的鍵掃描 HBase 中的數據，進行一些計算（基於每個鍵的新舊數據），然后寫入 ...