繁体   English   中英

Spark Structured Streaming - 流数据与静态数据相结合,每 5 分钟刷新一次

[英]Spark Structured Streaming - Streaming data joined with static data which will be refreshed every 5 mins

对于 spark 结构化流作业,一个输入来自 kafka 主题,而第二个输入是一个文件(python API 每 5 分钟刷新一次)。 我需要加入这 2 个输入并写入 kafka 主题。

我面临的问题是当第二个输入文件正在刷新并且 Spark 流作业正在读取文件的同时我收到以下错误:

文件 file:/home/hduser/code/new/collect_ip1/part-00163-55e17a3c-f524-4dac-89a4-b9e12f1a79df-c000.csv 不存在 可能底层文件已经更新。 您可以通过重新创建所涉及的数据集/数据帧来显式地使 Spark 中的缓存无效。

任何帮助将不胜感激。

使用 HBase 作为静态存储。 这肯定是更多的工作,但允许并发更新。

在我工作的地方,所有 Spark Streaming 都使用 HBase 来查找数据。 快得多。 如果您有 1 亿个客户来处理 10k 条记录的微批次怎么办? 我知道最初需要做很多工作。

https://medium.com/@anchitsharma1994/hbase-lookup-in-spark-streaming-acafe28cb0dc

如果您有一个小的静态 ref 表,那么静态连接很好,但您也有更新,从而导致问题。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM