繁体 English 中英

Spark Structured Streaming - 流数据与静态数据相结合，每 5 分钟刷新一次

[英]Spark Structured Streaming - Streaming data joined with static data which will be refreshed every 5 mins

原文 2019-12-25 11:23:35 2 1 apache-spark/ spark-structured-streaming/ spark-streaming-kafka

对于 spark 结构化流作业，一个输入来自 kafka 主题，而第二个输入是一个文件（python API 每 5 分钟刷新一次）。 我需要加入这 2 个输入并写入 kafka 主题。

我面临的问题是当第二个输入文件正在刷新并且 Spark 流作业正在读取文件的同时我收到以下错误：

文件 file:/home/hduser/code/new/collect_ip1/part-00163-55e17a3c-f524-4dac-89a4-b9e12f1a79df-c000.csv 不存在可能底层文件已经更新。 您可以通过重新创建所涉及的数据集/数据帧来显式地使 Spark 中的缓存无效。

任何帮助将不胜感激。

1 个解决方案

使用 HBase 作为静态存储。 这肯定是更多的工作，但允许并发更新。

在我工作的地方，所有 Spark Streaming 都使用 HBase 来查找数据。 快得多。 如果您有 1 亿个客户来处理 10k 条记录的微批次怎么办？ 我知道最初需要做很多工作。

见https://medium.com/@anchitsharma1994/hbase-lookup-in-spark-streaming-acafe28cb0dc

如果您有一个小的静态 ref 表，那么静态连接很好，但您也有更新，从而导致问题。

如何将静态数据帧与 Spark Structured Streaming 中的流数据帧进行比较？

[英]How to compare a static data frame with a streaming one in Spark Structured Streaming?

处理数据 - Spark结构化流媒体

[英]Handling data - Spark structured streaming

Spark Structured Streaming Kinesis 数据源

[英]Spark Structured Streaming Kinesis Data source

使用 Spark 结构化流在 postgresql 中插入数据

[英]Upsert data in postgresql using spark structured streaming

Spark Structured-Streaming - 未聚合数据上的水印

[英]Spark Structured-Streaming - Watermark on not aggregated data

将数据从 Spark Structured Streaming 加载到 ArrayList

[英]Loading data from Spark Structured Streaming into ArrayList

如何将Spark结构化流数据写入Hive？

[英]How to write Spark Structured Streaming Data into Hive?

Spark结构化流中的镶木地板数据和分区问题

[英]Parquet data and partition issue in Spark Structured streaming

使用 Spark 结构化流将数据写入 JSON 数组

[英]Writing data as JSON array with Spark Structured Streaming

在 Spark 结构化流中将数据内部连接到左连接 DataFrame 时丢失条目

[英]Losing entries when inner-joining data to a left-joined DataFrame in Spark Structured Streaming

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何将静态数据帧与 Spark Structured Streaming 中的流数据帧进行比较？处理数据 - Spark结构化流媒体 Spark Structured Streaming Kinesis 数据源使用 Spark 结构化流在 postgresql 中插入数据 Spark Structured-Streaming - 未聚合数据上的水印将数据从 Spark Structured Streaming 加载到 ArrayList 如何将Spark结构化流数据写入Hive？ Spark结构化流中的镶木地板数据和分区问题使用 Spark 结构化流将数据写入 JSON 数组在 Spark 结构化流中将数据内部连接到左连接 DataFrame 时丢失条目

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM