繁体   English   中英

使用Spark Streaming从Kafka读取流并为其分配模式

[英]Reading a stream from kafka using spark streaming and assigning a schema to it

我正在尝试从kafka读取流,其中的值是用逗号分隔的值的字符串(表示数据集中的列)。目标是读取两个此类流并将其加入。

如果我正在读取文件,则可以通过为输入流分配分隔符和模式来实现此目的。 这是我能做的:

val stearm_L: DataFrame = spark.readStream
      .option("sep", ";")
      .schema(schema_L)
      .csv("inputFileSteam_L")

如果我是从kafka而不是文件中读取文件,该如何做?

基本上,您可以使用format("kafka")代替csv("filename") format("kafka")

在Spark Streaming部分下有一个页面,有关Kafka集成,以获取更多详细信息。

关于如何解析CSV,请参见火花流:从kafka读取CSV字符串,写入镶木地板

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM