![](/img/trans.png)
[英]How to compare a static data frame with a streaming one in Spark Structured Streaming?
[英]Spark Structured Streaming - Streaming data joined with static data which will be refreshed every 5 mins
对于 spark 结构化流作业,一个输入来自 kafka 主题,而第二个输入是一个文件(python API 每 5 分钟刷新一次)。 我需要加入这 2 个输入并写入 kafka 主题。
我面临的问题是当第二个输入文件正在刷新并且 Spark 流作业正在读取文件的同时我收到以下错误:
文件 file:/home/hduser/code/new/collect_ip1/part-00163-55e17a3c-f524-4dac-89a4-b9e12f1a79df-c000.csv 不存在 可能底层文件已经更新。 您可以通过重新创建所涉及的数据集/数据帧来显式地使 Spark 中的缓存无效。
任何帮助将不胜感激。
使用 HBase 作为静态存储。 这肯定是更多的工作,但允许并发更新。
在我工作的地方,所有 Spark Streaming 都使用 HBase 来查找数据。 快得多。 如果您有 1 亿个客户来处理 10k 条记录的微批次怎么办? 我知道最初需要做很多工作。
见https://medium.com/@anchitsharma1994/hbase-lookup-in-spark-streaming-acafe28cb0dc
如果您有一个小的静态 ref 表,那么静态连接很好,但您也有更新,从而导致问题。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.