使用 spark dataframe 阅读 kafka 主题

Question

我想在 kafka 主题之上创建 dataframe ，然后我想将该 dataframe 注册为临时表以对数据执行减法操作。 我写了下面的代码。 但是在查询注册表时出现错误“org.apache.spark.sql.AnalysisException：必须使用 writeStream.start();; 执行带有流源的查询”

org.apache.spark.sql.types.DataType
org.apache.spark.sql.types.StringType
import org.apache.spark.sql.types._

val df = spark.readStream.format("kafka").option("kafka.bootstrap.servers", "SERVER ******").option("subscribe", "TOPIC_NAME").option("startingOffsets", "earliest").load()

df.printSchema()

val personStringDF = df.selectExpr("CAST(value AS STRING)")

val user_schema =StructType(Array(StructField("OEM",StringType,true),StructField("IMEI",StringType,true),StructField("CUSTOMER_ID",StringType,true),StructField("REQUEST_SOURCE",StringType,true),StructField("REQUESTER",StringType,true),StructField("REQUEST_TIMESTAMP",StringType,true),StructField("REASON_CODE",StringType,true)))


val personDF = personStringDF.select(from_json(col("value"),user_schema).as("data")).select("data.*")

personDF.registerTempTable("final_df1")

spark.sql("select * from final_df1").show

错误：---------“org.apache.spark.sql.AnalysisException：必须使用 writeStream.start(); 执行带有流源的查询；”

我也使用了 start() 方法，但我遇到了错误。

20/08/11 00:59:30 ERROR streaming.MicroBatchExecution: Query final_df1 [id = 1a3e2ea4-2ec1-42f8-a5eb-8a12ce0fb3f5, runId = 7059f3d2-21ec-43c4-b55a-8c735272bf0f] terminated with error java.lang.AbstractMethodError

注意：我编写此脚本的主要目标是我想对此数据编写减号查询，并希望将其与集群中的一个注册表进行比较。 所以，总结一下，如果我从 oracle 数据库中发送 1000 条 kafka 主题记录，我将在 ZA189C633D9995E11BF8607170EC9A4B8 表的顶部创建 dataframe，并将其注册为 kafka temp table。 比我想在源（oracle）和目标（kafka 主题）之间运行减号查询。 在源和目标之间执行 100% 的数据验证。 （可以将kafka主题注册为临时表吗？）

Answer 1

使用memory sink 而不是 registerTempTable。 检查下面的代码。

org.apache.spark.sql.types.DataType
org.apache.spark.sql.types.StringType
import org.apache.spark.sql.types._

val df = spark
.readStream
.format("kafka")
.option("kafka.bootstrap.servers", "SERVER ******")
.option("subscribe", "TOPIC_NAME")
.option("startingOffsets", "earliest")
.load()

df.printSchema()

val personStringDF = df.selectExpr("CAST(value AS STRING)")

val user_schema =StructType(Array(StructField("OEM",StringType,true),StructField("IMEI",StringType,true),StructField("CUSTOMER_ID",StringType,true),StructField("REQUEST_SOURCE",StringType,true),StructField("REQUESTER",StringType,true),StructField("REQUEST_TIMESTAMP",StringType,true),StructField("REASON_CODE",StringType,true)))


val personDF = personStringDF.select(from_json(col("value"),user_schema).as("data")).select("data.*")


personDF
.writeStream
.outputMode("append")
.format("memory")
.queryName("final_df1").start()

spark.sql("select * from final_df1").show(10,false)

Answer 2

流式传输 DataFrame 不支持show()方法。 当您调用start()方法时，它会启动一个后台线程 stream 将输入数据发送到接收器，并且由于您使用的是 ConsoleSink，它会将 output 数据发送到控制台。 您不需要调用show() 。

删除以下行，

personDF.registerTempTable("final_df1")
spark.sql("select * from final_df1").show

并添加以下或等效的行，

val query1 = personDF.writeStream.queryName("final_df1").format("memory").outputMode("append").start()
query1.awaitTermination()

使用 spark dataframe 阅读 kafka 主题

问题描述

2 个解决方案

解决方案1
3 2020-08-10 05:36:16

解决方案2
1 2020-08-10 05:34:07

使用 spark dataframe 阅读 kafka 主题

问题描述

2 个解决方案

解决方案1 3 2020-08-10 05:36:16

解决方案2 1 2020-08-10 05:34:07

解决方案1
3 2020-08-10 05:36:16

解决方案2
1 2020-08-10 05:34:07