標簽[spark-structured-streaming]

將 json 記錄從 dataframe 列寫入 Spark Streaming 中的 S3

[英]writing json record from dataframe column to S3 in spark streaming

我有一個以下面格式顯示的 drataframe，其中記錄為 json 數據（字符串格式）從 kafka 主題讀取我只需要將 dataframe 中存在的 json 記錄寫入 S3。有什么辦法可以解析記錄並將 json 轉換為 dataframe 並寫入 s3？或提供的任何其他解決方案將有所幫 ...

Spark Streaming HUDI HoodieException: Config conflict(key current value existing value): RecordKey:

[英]Spark Streaming HUDI HoodieException: Config conflict(key current value existing value): RecordKey:

當我使用 spark 連接到 kafka 主題並創建 dataframe 然后存儲到 Hudi 中時：我收到以下異常：將所有kafka數據存儲到Hudi表中 ...

[英]How to update Cassandra table with latest row, where Spark Dataframe is having multiple rows with same primary key?

我們有Cassandra桌人， Dataframe 是，在 Spark 中，我們想將 dataframe 保存到表中，其中 dataframe 對同一個主鍵有多個記錄。 Q 1：Cassandra 連接器如何在內部處理行的排序？ Q2：我們正在從kafka讀取數據並保存到Cassandra ...

列值總是被截斷

[英]column values are always truncated

我目前正在做一個小項目，我從 kafka 主題中獲取 stream 機器數據（JSON 格式）以供進一步分析。列值中的 JSON 應拆分為多個列及其相應的值。現在我總是遇到無法在列值中看到所有數據的問題，視圖似乎總是被截斷。讀取 stream：結果： Dataframe 和 base64 編 ...

將 Spark 結構化流與 StreamingKMeans 結合使用

[英]Use Spark structured streaming with StreamingKMeans

我想要使用 Spark 對流式數據集進行聚類。我首先嘗試使用 Kmeans，但它在調用 fit 方法時拋出運行時異常，表示它不能與流數據一起使用：然后我嘗試使用 StreamingKmeans，但它接縫這個 model 僅適用於 Spark 中的舊流媒體並接受 DStream。有誰知道這個問題 ...

我們可以在 PySpark 結構化流中使用 row_number() 嗎？

[英]Can we use row_number() in PySpark Structured Streaming?

PySpark SQL 函數參考row_number() function 說返回 window 分區內從 1 開始的序號暗示 function 僅適用於 windows。嘗試df.select('*', row_number()) 可以預見地給出一個例外。現在， .over()似乎只適用 ...

spark flatMapGroupsWithState 隨機丟失事件

[英]spark flatMapGroupsWithState random lost events

我有一份由同事組成的火花工作： 1- 從 Delta Lake 讀取 static dataFrame 。 2- 從 Delta Lake 讀取 dataFrame 的dataFrame 。 3- 加入 stream 和 static。 4-做一個flatMapGroupsWithState ...

使用 pyspark 從 Kafka Topic 讀取 Json 消息

[英]Read Json message from Kafka Topic using pyspark

我正在嘗試使用自定義模式使用火花流從 kafka 主題讀取一條 json 消息，當我僅將 Cast 值用作字符串時，我可以看到數據即將到來。但是當我使用模式時它不起作用。數據是這樣的：我將架構用作：我正在使用 function： output 仍然是 null。 ...

如果核心數量多於 Kafka 分區數量，Spark 結構化流式傳輸是否會受益於動態分配？

[英]Will Spark structured streaming benefit from dynamic allocation if number of cores more than number of Kafka partitions?

假設我們有一個從 X 分區主題讀取的應用程序，對數據進行一些過濾，然后使用結構化流查詢將其保存到存儲中（沒有復雜的混洗邏輯，只是一些簡單的轉換）。該應用程序是否會受益於動態分配功能，即在數據激增的情況下添加超過 X 個單核執行程序？我問這個，因為我主要使用 DStreams，其中有一個眾所周知 ...

PySpark 結構化流式讀取Kafka到delta表

[英]PySpark structured streaming read Kafka to delta table

探索 PySpark 結構化流和數據塊。我想編寫一個 spark structural streaming 作業來讀取 kafka 主題中的所有數據並發布到增量表。假設我使用的是最新版本並且 kafka 具有以下詳細信息。 kafka 主題名稱：ABC kafka 經紀人：localhost: ...

如何在流作業運行之間共享 state？

[英]How to share state between runs of streaming jobs?

由於業務需求，我每天使用 Trigger.Once 方法觸發一個 Spark 流作業。StreamingQuery query = processed .writeStream() .outputMode( ...

如何使用 PySpark/Spark 流將數據並行合並到數據塊增量表的分區中？

[英]How to parallelly merge data into partitions of databricks delta table using PySpark/Spark streaming?

我有一個 PySpark 流式管道，它從 Kafka 主題讀取數據，數據經過各種轉換，最后合並到數據塊增量表中。一開始，我們使用合並 function 將數據加載到增量表中，如下所示。這個傳入的 dataframe inc_df 包含所有分區的數據。我們在表級別執行上述查詢。我在下圖中給出 ...

如何在spark streaming中解析動態的json格式的kafka消息

[英]How to parse dynamic json formatted kafka message in spark streaming

我正在實施一個 Spark Structured Streaming 作業，我正在使用來自 Kafka 的 JSON 格式的消息。由於 json 數據是動態的，我沒有在from_json function 中使用的架構信息來加載 json 數據以激發 dataframe 下面是我用來從 kafka ...

Kafka 作為讀取流源總是在第一次迭代中返回 0 條消息

[英]Kafka as readstream source always returns 0 messages in the first iteration

我有一個 Structured Streaming 作業，它將 Kafka 作為源，將 Delta 作為接收器。每個批次都將在foreachBatch中處理。我面臨的問題是我需要將此結構化流配置為僅觸發一次，但在初始運行中，Kafka 始終不返回任何記錄。這就是我配置結構化流處理的方式：我嘗 ...

如何獲取流增量表的快照作為 Databricks 中的 static 表？

[英]How to get a snapshot of a streaming delta table as a static table in Databricks?

假設我在 Databricks 中有一個流式增量表。有什么方法可以將流式表的快照作為 static 表？原因是我需要通過以下方式將此流表與 static 表連接起來： “Output”是一個 static 表，“country_information”是流表。但是，我收到錯誤：另外，我無 ...

java.lang.ClassNotFoundException: org.apache.spark.sql.kafka010.KafkaSourceRDDPartition

[英]java.lang.ClassNotFoundException: org.apache.spark.sql.kafka010.KafkaSourceRDDPartition

我正在使用 Spark2.3.0 和 kafka1.0.0.3。我創建了一個 spark read stream 它運行成功然后但是當我運行這個它拋出一個錯誤：誰能幫我解決這個問題？我嘗試用更新的庫替換 jar 庫，但問題仍然存在。 ...

Delta Lake 表按列並行更新

[英]Delta Lake table update column-wise in parallel

我希望每個人都做得很好。我有一個很長的問題，因此請耐心等待。上下文：所以我有來自 Yugabyte 的 Debezium 連接器的 CDC 有效負載，格式如下： r""" { "payload": { "before": null, "after": { "id": { "value": "M ...

在 spark 中從 hdfs（也嘗試使用 s3）提取 kafka jks 證書時出錯

[英]Error while pulling kafka jks certificates from hdfs (trying with s3 as well) in spark

我在集群模式下運行 spark，它給出了錯誤我運行了以下命令並驗證了該位置是否存在 jks 文件。我寫了下面的代碼來連接到 spark 項目中的 kafka。火花代碼：請建議缺少什么？如何在 s3 中使用 jks 文件實現相同的目的？ ...

如何使用 Databricks 中結構化流的最大記錄數來限制輸入速率？

[英]How do I limit input rate using max record count on Structured Streaming in Databricks?

我正在嘗試使用最大記錄數來限制結構化流查詢的輸入速率。但是，文檔說僅支持maxFilesPerTrigger或maxBytesPerTrigger 。是否有任何解決方法可以通過最大記錄數實現這一目標？請指教 ...

Spark Structured 流水印沒有效果

[英]Spark Structured streaming watermark has no effect

我使用水印進行基於 window 的聚合，但每次都會聚合所有數據。相關代碼：查詢開始后，我開始將文件放入目錄“data-source”：當前時間為 2022-12-29T10:44:30 結果：預期結果：如您所見，甚至還匯總了 2022-12-01 的非常舊的數據即使我等了一段時間說 20 ...