繁体   English   中英

使用 spark dataframe 阅读 kafka 主题

[英]Reading kafka topic using spark dataframe

我想在 kafka 主题之上创建 dataframe ,然后我想将该 dataframe 注册为临时表以对数据执行减法操作。 我写了下面的代码。 但是在查询注册表时出现错误“org.apache.spark.sql.AnalysisException:必须使用 writeStream.start();; 执行带有流源的查询”

org.apache.spark.sql.types.DataType
org.apache.spark.sql.types.StringType
import org.apache.spark.sql.types._

val df = spark.readStream.format("kafka").option("kafka.bootstrap.servers", "SERVER ******").option("subscribe", "TOPIC_NAME").option("startingOffsets", "earliest").load()

df.printSchema()

val personStringDF = df.selectExpr("CAST(value AS STRING)")

val user_schema =StructType(Array(StructField("OEM",StringType,true),StructField("IMEI",StringType,true),StructField("CUSTOMER_ID",StringType,true),StructField("REQUEST_SOURCE",StringType,true),StructField("REQUESTER",StringType,true),StructField("REQUEST_TIMESTAMP",StringType,true),StructField("REASON_CODE",StringType,true)))


val personDF = personStringDF.select(from_json(col("value"),user_schema).as("data")).select("data.*")

personDF.registerTempTable("final_df1")

spark.sql("select * from final_df1").show 

错误:---------“org.apache.spark.sql.AnalysisException:必须使用 writeStream.start(); 执行带有流源的查询;”

我也使用了 start() 方法,但我遇到了错误。

20/08/11 00:59:30 ERROR streaming.MicroBatchExecution: Query final_df1 [id = 1a3e2ea4-2ec1-42f8-a5eb-8a12ce0fb3f5, runId = 7059f3d2-21ec-43c4-b55a-8c735272bf0f] terminated with error java.lang.AbstractMethodError

注意:我编写此脚本的主要目标是我想对此数据编写减号查询,并希望将其与集群中的一个注册表进行比较。 所以,总结一下,如果我从 oracle 数据库中发送 1000 条 kafka 主题记录,我将在 ZA189C633D9995E11BF8607170EC9A4B8 表的顶部创建 dataframe,并将其注册为 kafka temp table。 比我想在源(oracle)和目标(kafka 主题)之间运行减号查询。 在源和目标之间执行 100% 的数据验证。 (可以将kafka主题注册为临时表吗?)

使用memory sink 而不是 registerTempTable。 检查下面的代码。

org.apache.spark.sql.types.DataType
org.apache.spark.sql.types.StringType
import org.apache.spark.sql.types._

val df = spark
.readStream
.format("kafka")
.option("kafka.bootstrap.servers", "SERVER ******")
.option("subscribe", "TOPIC_NAME")
.option("startingOffsets", "earliest")
.load()

df.printSchema()

val personStringDF = df.selectExpr("CAST(value AS STRING)")

val user_schema =StructType(Array(StructField("OEM",StringType,true),StructField("IMEI",StringType,true),StructField("CUSTOMER_ID",StringType,true),StructField("REQUEST_SOURCE",StringType,true),StructField("REQUESTER",StringType,true),StructField("REQUEST_TIMESTAMP",StringType,true),StructField("REASON_CODE",StringType,true)))


val personDF = personStringDF.select(from_json(col("value"),user_schema).as("data")).select("data.*")


personDF
.writeStream
.outputMode("append")
.format("memory")
.queryName("final_df1").start()

spark.sql("select * from final_df1").show(10,false)

流式传输 DataFrame 不支持show()方法。 当您调用start()方法时,它会启动一个后台线程 stream 将输入数据发送到接收器,并且由于您使用的是 ConsoleSink,它会将 output 数据发送到控制台。 您不需要调用show()

删除以下行,

personDF.registerTempTable("final_df1")
spark.sql("select * from final_df1").show 

并添加以下或等效的行,

val query1 = personDF.writeStream.queryName("final_df1").format("memory").outputMode("append").start()
query1.awaitTermination()

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM