databricks 中 json 问题的 spark.readstream 和 writestream

Question

我有一个 json

{
"name": "John",
"age": 30,
"car": "testing"}

我在数据块中有一个代码

struct2 = StructType([StructField("name", StringType(), True), \
StructField("age", IntegerType(), True, None), \
                  StructField("car", StringType(), True, None)])
df2 = spark.readStream.schema(struct2).format('json') \
  .load("abfss://i**********.dfs.core.windows.net/streamjson/")

下一步我开始写入另一个文件夹

df2.select("name","age","car").writeStream.format('json')\
  .option("checkpointLocation", "abfss://****@*****.dfs.core.windows.net/outputstream/jsoncheckpoint3") \
  .start("abfss://***@******.dfs.core.windows.net/streamjsonoutput/")

我在那里放了新文件，我检查了 streamjsonoutput 中的文件，文件如下所示

谁能指出我做错了什么？

Answer 1

您需要将.option("multiLine", "true")添加到您的spark.readStream中，因为默认情况下，Spark 期望 JSON 文件每行由单独的 JSON 个对象组成，而不是跨越多行（请参阅文档）：

df2 = spark.readStream.schema(struct2).option("multiLine", "true") \
  .json("abfss://...")

databricks 中 json 问题的 spark.readstream 和 writestream

问题描述

1 个解决方案

解决方案1
0 2022-02-14 08:38:59

databricks 中 json 问题的 spark.readstream 和 writestream

问题描述

1 个解决方案

解决方案1 0 2022-02-14 08:38:59

解决方案1
0 2022-02-14 08:38:59