提交 jar 文件時，控制台中未打印來自 Kafka 的數據。（Spark 流 + Kafka 集成 3.1.1）

Question

我提交 jar 文件時沒有錯誤。

但是當我使用 HTTP 協議發送數據時，沒有打印數據。

（當我使用“kafka-console-consumer.sh”檢查時，數據打印得很好）

[圖片，提交了jar文件：數據未打印]

jar 文件中的代碼和依賴項如下。

【圖，Kafka-console-consumer.sh：數據打印出來】

命令：

bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --group test-consumer --topic test01 --from-beginning

[Java 文件]

2-1、依賴

<dependencies>
    <dependency>
        <groupId>junit</groupId>
        <artifactId>junit</artifactId>
        <version>4.11</version>
        <scope>test</scope>
    </dependency>

    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-core_2.12</artifactId>
      <version>3.1.1</version>
    </dependency>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-streaming_2.12</artifactId>
        <version>3.1.1</version>
        <scope>provided</scope>
    </dependency>
    
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-streaming-kafka-0-10_2.12</artifactId>
        <version>3.1.1</version>
    </dependency>
</dependencies>

2-2、代碼

package SparkTest.SparkStreaming;

import org.apache.spark.streaming.*;
import org.apache.spark.streaming.api.java.*;
import java.util.*;
import org.apache.spark.SparkConf;
import org.apache.spark.streaming.kafka010.*;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.common.serialization.StringDeserializer;


public final class JavaWordCount {
    public static void main(String[] args) throws Exception {
        // Create a local StreamingContext with two working thread and batch interval of 1 second
        SparkConf conf = new SparkConf().setMaster("yarn").setAppName("JavaWordCount");
        JavaStreamingContext jssc = new JavaStreamingContext(conf, Durations.seconds(1));
        
        // load a topic from broker
        Map<String, Object> kafkaParams = new HashMap<>();
        kafkaParams.put("bootstrap.servers", "localhost:9092");
        kafkaParams.put("key.deserializer", StringDeserializer.class);
        kafkaParams.put("value.deserializer", StringDeserializer.class);
        kafkaParams.put("group.id", "test-consumer");
        kafkaParams.put("auto.offset.reset", "latest");
        kafkaParams.put("enable.auto.commit", false);

        Collection<String> topics = Arrays.asList("test01");

        JavaInputDStream<ConsumerRecord<String, String>> stream =
          KafkaUtils.createDirectStream(
            jssc,
            LocationStrategies.PreferBrokers(),
            ConsumerStrategies.<String, String>Subscribe(topics, kafkaParams)
          );
        
        JavaDStream<String> data = stream.map(v -> {
            return v.value();    // mapping to convert into spark D-Stream 
        });
      
        data.print();
        
        jssc.start();
        jssc.awaitTermination();
    }
}

Answer 1

您在控制台使用者中使用--from-beginning ，但在 Spark 代碼中使用auto.offset.reset=latest 。

因此，如果您想查看任何數據，則需要在 Spark運行時運行生產者

您還需要考慮使用spark-sql-kafka-0-10結構化流依賴項，正如您可以在 KafkaWordCount 示例中找到的那樣

提交 jar 文件時，控制台中未打印來自 Kafka 的數據。（Spark 流 + Kafka 集成 3.1.1）

問題描述

1 個解決方案

解決方案1
0 2021-08-10 18:47:48

提交 jar 文件時，控制台中未打印來自 Kafka 的數據。 （Spark 流 + Kafka 集成 3.1.1）

問題描述

1 個解決方案

解決方案1 0 2021-08-10 18:47:48

提交 jar 文件時，控制台中未打印來自 Kafka 的數據。（Spark 流 + Kafka 集成 3.1.1）

解決方案1
0 2021-08-10 18:47:48