Spark结构化流式批处理

Question

I am running batch in Structured programming of Spark. 我正在Spark的结构化编程中运行批处理。 The below snippet code throws error saying "kafka is not a valid Spark SQL Data Source;". 以下代码段引发错误，提示“ kafka不是有效的Spark SQL数据源；”。 The version I am using for the same is --> spark-sql-kafka-0-10_2.10. 我使用的相同版本是-> spark-sql-kafka-0-10_2.10。 Your help is appreciated. 感谢您的帮助。 Thanks. 谢谢。

Dataset<Row> df = spark
    .read()         
    .format("kafka")
    .option("kafka.bootstrap.servers", "*****")
    .option("subscribePattern", "test.*")
    .option("startingOffsets", "earliest")
    .option("endingOffsets", "latest")
    .load();

Exception in thread "main" org.apache.spark.sql.AnalysisException: kafka is not a valid Spark SQL Data Source.;

Answer 1

I had the same problem and like me you are using read instead of readStream. 我有同样的问题，就像我一样，您使用的是read而不是readStream。

Changing spark.read() to spark.readStream worked fine for me. 将spark.read()更改为spark.readStream对我来说很好。

Answer 2

Use the spark-submit mechanism and pass along -jars spark-sql-kafka-0-10_2.11-2.1.1.jar 使用spark-submit机制并传递-jars spark-sql-kafka-0-10_2.11-2.1.1.jar

Adjust the version of kafka, scala and spark in that library according to ur own situation. 根据自己的情况调整该库中的kafka，scala和spark版本。

Spark结构化流式批处理

问题描述

2 个解决方案

解决方案1
2 2017-11-21 18:40:18

解决方案2
0 2017-05-26 21:00:04

Spark结构化流式批处理

问题描述

2 个解决方案

解决方案1 2 2017-11-21 18:40:18

解决方案2 0 2017-05-26 21:00:04

解决方案1
2 2017-11-21 18:40:18

解决方案2
0 2017-05-26 21:00:04