簡體 English 中英

處理(Drop and Log) Kafka 生產者發布的壞數據，這樣Spark (Java) Consumer 不會將其存儲在HDFS 中

[英]Handle(Drop and Log) bad data published by Kafka producer , such that Spark (Java) Consumer doesn't store it in HDFS

原文 2020-03-17 15:03:03 1 1 java/ apache-spark/ exception/ error-handling/ apache-kafka

目前，我正在使用 Java 內置的 Spark Consumer 來讀取 Kafka Producer 發布的記錄（json）並將其存儲在 hdfs 中。 如果假設我的記錄具有以下屬性（id、名稱、公司、發布日期），目前，我正在處理異常，如果缺少其中一個屬性，則程序會拋出一個運行時異常，並顯示日志消息中的一個該屬性丟失，但問題是，由於異常，整個火花作業完全停止。 我想處理那些壞記錄，通過避免這種情況，而不是停止整個 spark 作業，程序會刪除並記錄這些壞記錄，而不是拋出異常。

1 個解決方案

答案將基於意見。 這是我會做的，

不要在日志文件中記錄拒絕，因為這可能很大並且您可能需要重新處理它們。 而是為拒絕原因的拒絕記錄創建另一個數據集。 您的過程將產生 2 個數據集 - 好的和拒絕的。

盡管有可能，但不應將異常用於代碼的控制流。 我會使用謂詞/過濾器/IF 條件的想法，它會檢查數據並拒絕那些不符合謂詞/過濾器/IF 條件的數據。

如果您使用異常，則將其綁定到處理單個記錄而不是整個作業。 最好避免這種想法。

Consumer Producer在Java中不起作用

[英]Consumer Producer doesn't work in java

Kafka Messages-Java生產者和消費者客戶端

[英]Kafka Messages - Producer & Consumer Client in Java

Kafka Java生產者和使用者，其ACL啟用了主題

[英]Kafka java producer and consumer with ACL enabled with topic

Spark Kafka 流不會在工作節點上分配消費者負載

[英]Spark Kafka streaming doesn't distribute consumer load on worker nodes

Kafka生產者和消費者延遲

[英]Kafka producer and consumer delay

消費者無法使用Java中的簡單生產者/消費者/隊列代碼工作

[英]Consumer doesn't work in my simple producer/consumer/queue code in Java

Apache Kafka生產者不存儲數據

[英]Apache kafka producer does not store data

如何找回Kafka生產者和消費者配置（Java API）？

[英]How to get back Kafka producer and consumer configuration (Java API)?

具有4個分區的單一生產者的多用戶設置Kafka Java

[英]Multiple Consumer setup for Single Producer with 4 partitions Kafka Java

Kafka：Java Producer發送消息后，控制台消費者上沒有看到任何消息

[英]Kafka: No message seen on console consumer after message sent by Java Producer

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Consumer Producer在Java中不起作用 Kafka Messages-Java生產者和消費者客戶端 Kafka Java生產者和使用者，其ACL啟用了主題 Spark Kafka 流不會在工作節點上分配消費者負載 Kafka生產者和消費者延遲消費者無法使用Java中的簡單生產者/消費者/隊列代碼工作 Apache Kafka生產者不存儲數據如何找回Kafka生產者和消費者配置（Java API）？具有4個分區的單一生產者的多用戶設置Kafka Java Kafka：Java Producer發送消息后，控制台消費者上沒有看到任何消息

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM