jdbc源代码和Spark结构化流

Question

我一直在使用Spark结构化流，并且对此感到非常满意。 我目前正在执行ETL类型的活动。 我有一个基于PostgreSQL的表，其中包含元数据类型信息，我希望与流数据框架合并。

metadataDf = spark \
    .read \
    .jdbc(url=jdbcUrl, \
        table = query,
        properties = connectionProperties) 

streamDF = spark \
    .readStream \
    .option("maxFilesPerTrigger",10) \
    .option("latestFirst",True) \
    .schema(sensorSchema) \
    .json(sensorPath)

joined_metadata = streamDF \
    .join(metadataDf,["uid"],"left")

write_query = joined_metadata \
    .writeStream \
    .trigger(processingTime=arbitarytime) \
    .format("json") \
    .option("checkpointLocation",chkploc) \
    .option("path",write_path) \
    .start()

postgresql上的元数据表可以每两天更新一次。 我想知道，是否需要通过某种while循环来容纳spark上的表刷新。 或者Spark的懒惰评估会解决该特定情况。

谢谢

Answer 1

只要程序运行，Spark都会照顾好它。 如果您未指定触发间隔，Spark将连续处理此流（每个批次在最后一个完成后开始）

要指定触发间隔，请参见此处和文档中的 df.trigger()

:)

jdbc源代码和Spark结构化流

问题描述

1 个解决方案

解决方案1
0 已采纳 2018-03-21 19:57:18

jdbc源代码和Spark结构化流

问题描述

1 个解决方案

解决方案1 0 已采纳 2018-03-21 19:57:18

解决方案1
0 已采纳 2018-03-21 19:57:18