如何在 pyspark 中的结构化流作业中运行 map 转换

Question

我正在尝试使用进行 REST API 调用的 map() 转换来设置结构化流作业。 以下是详细信息：

(1)
df=spark.readStream.format('delta') \
.option("maxFilesPerTrigger", 1000) \
.load(f'{file_location}') 

(2)
respData=df.select("resource", "payload").rdd.map(lambda row: put_resource(row[0], row[1])).collect()
respDf=spark.createDataFrame(respData, ["resource", "status_code", "reason"])

(3)
respDf.writeStream \
.trigger(once=True) \
.outputMode("append") \
.format("delta") \
.option("path", f'{file_location}/Response') \
.option("checkpointLocation", f'{file_location}/Response/Checkpoints') \
.start()

但是，我得到一个错误：必须在步骤 (2) 上使用 writeStream.start() 执行带有流源的查询。

任何帮助将不胜感激。 谢谢你。

Answer 1

你必须在 df 上执行你的 stream 也意味着 df.writeStream.start()..

这里有一个类似的线程：

必须使用 writeStream.start() 执行带有流源的查询；

如何在 pyspark 中的结构化流作业中运行 map 转换

问题描述

1 个解决方案

解决方案1
0 2020-10-07 14:27:22

如何在 pyspark 中的结构化流作业中运行 map 转换

问题描述

1 个解决方案

解决方案1 0 2020-10-07 14:27:22

解决方案1
0 2020-10-07 14:27:22