簡體 English 中英

在Kafka-Spark Streaming中吸收唯一記錄

[英]Ingesting unique records in Kafka-Spark Streaming

原文 2018-11-08 19:26:31 5 1 scala/ cassandra/ apache-kafka/ spark-streaming

我有一個Kafka主題，該主題每分鍾獲取10K個事件，並且在Scala中編寫了Spark Streaming 2.3消費者以接收和攝取Cassandra。 傳入事件是具有“ userid”字段的JSON。 但是，如果再次出現具有相同userid的事件（即使具有不同的消息正文），我仍然不希望將其吸收到Cassandra中。 Cassandra表每天每時每刻都在增長，因此通過將表檢索到內存中的Spark數據幀中來查找直到此時為止遇到的所有用戶ID都是不可能的，因為該表將變得越來越大。 如何最好地僅提取唯一記錄？

updateStateByKey可以工作嗎？ 狀態可以維持多長時間？ 因為如果一年后使用相同的用戶名，我不想將其提取到Cassandra中。

1 個解決方案

使用像Aerospike這樣的外部低延遲外部DB，或者如果重復率很低，則可以使用內存中的布谷鳥/布谷鳥過濾器（即1年約4GB，每分鍾10K的速率），並通過Cassandra重新檢查匹配項如果出現誤報，請勿丟棄事件。

Kafka-Spark群集的ClassNotFoundException

[英]ClassNotFoundException for Kafka-Spark cluster

卡夫卡生產者消息未在消費者中顯示（通過卡夫卡火花流媒體讀取）

[英]Kafka producer messages not showing up in consumer (read via kafka-spark streaming)

Kafka-Spark批處理流：WARN客戶端。NetworkClient：引導代理斷開連接

[英]Kafka-Spark Batch Streaming: WARN clients.NetworkClient: Bootstrap broker disconnected

Spark (2.2)：使用結構化流從 Kafka 反序列化 Thrift 記錄

[英]Spark (2.2): deserialise Thrift records from Kafka using Structured Streaming

來自Kafka的Spark Streaming以及與Memsql記錄的比較（計數不正確）

[英]Spark Streaming from Kafka and comparison with records of Memsql (count is not coming proper)

如何從Spark Streaming開始從Kafka主題中讀取記錄？

[英]How to read records from Kafka topic from beginning in Spark Streaming?

如何在Spark Streaming中從Kafka的記錄中獲取RDD？

[英]How to foreachRDD over records from Kafka in Spark Streaming?

Spark Streaming Kafka

[英]Spark Streaming Kafka

在Scala中使用Kafka進行火花流

[英]Spark Streaming with Kafka in Scala

ExceptionInInitializerError Spark流式傳輸Kafka

[英]ExceptionInInitializerError Spark Streaming Kafka

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Kafka-Spark群集的ClassNotFoundException 卡夫卡生產者消息未在消費者中顯示（通過卡夫卡火花流媒體讀取） Kafka-Spark批處理流：WARN客戶端。NetworkClient：引導代理斷開連接 Spark (2.2)：使用結構化流從 Kafka 反序列化 Thrift 記錄來自Kafka的Spark Streaming以及與Memsql記錄的比較（計數不正確）如何從Spark Streaming開始從Kafka主題中讀取記錄？如何在Spark Streaming中從Kafka的記錄中獲取RDD？ Spark Streaming Kafka 在Scala中使用Kafka進行火花流 ExceptionInInitializerError Spark流式傳輸Kafka

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM