簡體 English 中英

如何在Spark Structured Streaming中處理已刪除（或更新）的行？

[英]How can I process deleted (or updated) rows in Spark Structured Streaming?

原文 2016-12-09 07:45:24 8 1 apache-spark/ apache-spark-sql/ spark-structured-streaming

如果我想count一下有多少人在"Coca-Cola" ，我會使用以下查詢：

people.filter(_.company == "Coca-Cola").groupByKey(_.company).count().writeStream...

這在批處理模式下工作正常。

但是，假設一個person的company字段隨着時間的推移person變化，或假設人們完全從Dataset刪除，我怎么能使用結構化流式傳輸，所以count仍然正確？

AFAIK Structured Streaming假設數據源是僅附加的：這是否意味着我需要將刪除和更新作為單獨的數據源進行跟蹤，並自己合並它們？

1 個解決方案

一般來說，結構化流媒體的模型是您正在閱讀不斷增長的僅附加表。 你是對的，這意味着為了回答你的問題，你必須建模一個值作為刪除（可能在像numEmployees這樣的字段中使用numEmployees ）然后插入。

如何在Spark結構化流中向withWatermark添加超時功能

[英]How can I add timeout functionality to withWatermark in Spark Structured Streaming

如何在特定時間內運行 Spark 結構化流作業？

[英]How can I run a Spark structured streaming job for a certain time?

如何在Spark結構化流中迭代分組的行以產生多個行？

[英]How to iterate grouped rows to produce multiple rows in spark structured streaming?

如何使用Spark結構化流逐塊處理文件？

[英]How to process files using Spark Structured Streaming chunk by chunk?

Spark結構化流處理多行輸入

[英]Spark Structured Streaming process multi line input

在 Spark 結構化流處理中跳過批次

[英]Skipping of batches in spark structured streaming process

Spark Structured Streaming NOT 處理 Kafka 偏移量過期

[英]Spark Structured Streaming NOT process Kafka offset expires

如何使用Java在Spark結構化流中檢查從Kafka獲取數據？

[英]How can I check I get data from Kafka in Spark-structured-streaming with Java?

如何從 Spark Structured Streaming 刷新 Hive/Impala 表？

[英]How can I refresh a Hive/Impala table from Spark Structured Streaming?

如何編寫數據集 <Row> Spark結構化流上的kafka輸出主題的介紹-Java8

[英]How can I write a Dataset<Row> into kafka output topic on Spark Structured Streaming - Java8

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何在Spark結構化流中向withWatermark添加超時功能如何在特定時間內運行 Spark 結構化流作業？如何在Spark結構化流中迭代分組的行以產生多個行？如何使用Spark結構化流逐塊處理文件？ Spark結構化流處理多行輸入在 Spark 結構化流處理中跳過批次 Spark Structured Streaming NOT 處理 Kafka 偏移量過期如何使用Java在Spark結構化流中檢查從Kafka獲取數據？如何從 Spark Structured Streaming 刷新 Hive/Impala 表？如何編寫數據集 <Row> Spark結構化流上的kafka輸出主題的介紹-Java8

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM