繁体   English   中英

如何使结构化流中的dropDuplicates状态到期以避免OOM?

[英]How to expire state of dropDuplicates in structured streaming to avoid OOM?

我想使用spark结构流来计算每天的唯一访问权限,因此我使用以下代码

.dropDuplicates("uuid")

并且在第二天应该放弃今天维持的状态,以便我可以获得第二天的唯一访问权限并避免OOM。 spark文件表示使用带水印的dropDuplicates,例如:

.withWatermark("timestamp", "1 day")
.dropDuplicates("uuid", "timestamp")

但必须在dropDuplicates中指定水印列。 在这种情况下,uuid和timestamp将被用作组合键,以使用相同的uuid和timestamp对元素进行重复数据删除,这不是我所期望的。

那么有一个完美的解决方案吗?

经过几天的努力,我终于找到了自己的方式。

在研究水印dropDuplicates的源代码时,我发现除了eventTime列之外,水印还支持window列,因此我们可以使用以下代码:

.select(
    window($"timestamp", "1 day"),
    $"timestamp",
    $"uuid"
  )
.withWatermark("window", "1 day")
.dropDuplicates("uuid", "window")

由于同一天的所有事件都具有相同的窗口,因此这将产生与仅使用uuid进行重复数据删除相同的结果。 希望可以帮助某人。

以下是Spark文档中提出的过程的修改。 诀窍是操纵事件时间,即将事件时间放入桶中。 假设事件时间以毫秒为单位。

// removes all duplicates that are in 15 minutes tumbling window.
// doesn't remove duplicates that are in different 15 minutes windows !!!!
public static Dataset<Row> removeDuplicates(Dataset<Row> df) {
    // converts time in 15 minute buckets
    // timestamp - (timestamp % (15 * 60))
    Column bucketCol = functions.to_timestamp(
            col("event_time").divide(1000).minus((col("event_time").divide(1000)).mod(15*60)));
    df = df.withColumn("bucket", bucketCol);

    String windowDuration = "15 minutes";
    df = df.withWatermark("bucket", windowDuration)
            .dropDuplicates("uuid", "bucket");

    return df.drop("bucket");
}

我发现窗口功能不起作用所以我选择使用window.start或window.end。

.select(
   window($"timestamp", "1 day").start,
   $"timestamp",
   $"uuid"
)
.withWatermark("window", "1 day")
.dropDuplicates("uuid", "window")

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM