使用Spark Streaming从Kafka读取流并为其分配模式

Question

我正在尝试从kafka读取流，其中的值是用逗号分隔的值的字符串（表示数据集中的列）。目标是读取两个此类流并将其加入。

如果我正在读取文件，则可以通过为输入流分配分隔符和模式来实现此目的。 这是我能做的：

val stearm_L: DataFrame = spark.readStream
      .option("sep", ";")
      .schema(schema_L)
      .csv("inputFileSteam_L")

如果我是从kafka而不是文件中读取文件，该如何做？

Answer 1

基本上，您可以使用format("kafka")代替csv("filename") format("kafka") 。

在Spark Streaming部分下有一个页面，有关Kafka集成，以获取更多详细信息。

关于如何解析CSV，请参见火花流：从kafka读取CSV字符串，写入镶木地板