簡體 English 中英

如何使用 PySpark 結構化流計算時間戳之間的差異

[英]How to compute difference between timestamps with PySpark Structured Streaming

原文 2019-11-14 13:46:28 0 1 apache-spark/ pyspark/ spark-structured-streaming

PySpark 結構化流媒體存在以下問題。

我的 stream 數據中的每一行都有一個用戶 ID 和一個時間戳。 現在，對於每一行和每個用戶，我想添加一個帶有時間戳差異的列。

例如，假設我收到的第一行是：“用戶 A，08:00:00”。 如果第二行顯示“用戶 A，08:00:10”，那么我想在第二行添加一個名為“間隔”的列，表示“10 秒”。

有誰知道如何實現這一目標？ 我嘗試使用結構化流文檔的 window 函數示例，但它沒有用。

非常感謝

1 個解決方案

由於我們正在談論結構化流和“每一行和每個用戶” ，這告訴我您應該使用帶有某種流聚合（ groupBy和groupByKey ）的流查詢。

對於流式聚合，您只能依靠結構化流中的微批處理 stream 執行。 這使得單個用戶的記錄可能是兩個不同微批次的一部分。 這表明您需要一個 state。

綜上所述，您需要有狀態的流式聚合。

有了這個，我想你想要一個Arbitrary Stateful Operations ，即KeyValueGroupedDataset.mapGroupsWithState或KeyValueGroupedDataset.flatMapGroupsWithState （見KeyValueGroupedDataset ）：

許多用例需要比聚合更高級的有狀態操作。 例如，在許多用例中，您必須從事件的數據流中跟蹤會話。 為了進行這種會話化，您必須將任意類型的數據保存為 state，並在每個觸發器中使用數據 stream 事件對 state 執行任意操作。

從 Spark 2.2 開始，這可以使用操作mapGroupsWithState和更強大的操作flatMapGroupsWithState來完成。 這兩個操作都允許您在分組數據集上應用用戶定義的代碼來更新用戶定義的 state。

state 將是每個用戶找到的最后一條記錄。 這看起來可行。

我的擔憂是：

這個流式查詢要處理多少用戶？ （越多狀態越大）
何時清理 state（不再期望在流中的用戶）？ （這將使 state 保持合理的大小）

Spark Structured Streaming和DStreams有什么區別？

[英]What is the difference between Spark Structured Streaming and DStreams?

Pyspark join with functions和時間戳的區別

[英]Pyspark join with functions and difference between timestamps

如何使用PySpark將結構化流數據寫入Cassandra？

[英]How to Write Structured Streaming Data into Cassandra with PySpark?

如何在Pyspark結構化流中處理時間戳

[英]How to handle timestamp in Pyspark Structured Streaming

Pyspark 結構化流處理

[英]Pyspark Structured streaming processing

pyspark中的結構化流

[英]Structured Streaming in pyspark

如何計算 Spark Structured Streaming 中的滯后差異？

[英]How to calculate lag difference in Spark Structured Streaming?

pyspark - 結構化流式傳輸到彈性搜索

[英]pyspark - structured streaming into elastic search

使用 State (Pyspark) 的 Spark 結構化流

[英]Spark Structured Streaming with State (Pyspark)

如何處理從Kafka到Cassandra的pySpark結構化流

[英]How to deal with pySpark structured streaming coming from Kafka to Cassandra

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Spark Structured Streaming和DStreams有什么區別？ Pyspark join with functions和時間戳的區別如何使用PySpark將結構化流數據寫入Cassandra？如何在Pyspark結構化流中處理時間戳 Pyspark 結構化流處理 pyspark中的結構化流如何計算 Spark Structured Streaming 中的滯后差異？ pyspark - 結構化流式傳輸到彈性搜索使用 State (Pyspark) 的 Spark 結構化流如何處理從Kafka到Cassandra的pySpark結構化流

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM