我已经构建了一个 spark 结构化流应用程序,它从 kafka 主题中读取数据,我已经指定了最新的起始偏移量,如果 spark 端出现任何故障会发生什么情况,从哪个点/偏移量开始,数据将在重新启动后继续读取和在写入 stream 中指定检查点以确保我们从应用程序/spark 失败的点读取是个好主意 ...
我已经构建了一个 spark 结构化流应用程序,它从 kafka 主题中读取数据,我已经指定了最新的起始偏移量,如果 spark 端出现任何故障会发生什么情况,从哪个点/偏移量开始,数据将在重新启动后继续读取和在写入 stream 中指定检查点以确保我们从应用程序/spark 失败的点读取是个好主意 ...
我的操作系统是windows 11和 Apache Spark 版本是spark-3.1.3-bin-hadoop3.2 我尝试使用带有 pyspark 的 spark 结构化流。 下面是我简单的 spark 结构化流代码。 没有spark.sparkContext.setCheckpointDi ...
我正在使用 Spark 的MemoryStream测试 DeltaWriter class 以创建 stream(而不是 readStream),我想将结果作为带有选项"mergeSchema": true如下所示:import org.apache.spark.sql.execution.str ...
如果 spark streaming 作业涉及 shuffle 和有状态处理,则每个微批处理很容易生成大量小文件。 我们应该在不影响延迟的情况下减少文件数量。 ...
我正在运行一个非常长时间运行的批处理作业。 它会产生很多OOM异常。 为了最小化这个问题,添加了 checkpoints() 我应该在哪里设置检查点目录? 该位置必须可供所有执行者访问。 目前,我正在使用一个桶。 根据日志文件,我可以看到我的代码已经通过了几个 checkpoint() 调用,但是 ...
我有一个简单的 Apache Spark Structured Streaming python 代码,它从 Kafka 读取数据,并将消息写入控制台。 我已经设置了检查点位置,但是代码没有写入检查点..任何想法为什么? 这是代码: ...
我有一个使用 DataFrame 进行计算的代码。 我尝试以不同的方式缓存表。 我得到了让我思考的结果。 为什么 checkpoint(false) 比 persist() 更有效? 毕竟,检查点需要时间来序列化对象并将它们写入磁盘。 PS我在GitHub上的小项目: https ...
我阅读了有关检查点的信息,它看起来很适合我的需求,但我找不到如何使用它的好例子。 我的问题是: 我应该指定检查点目录吗? 是否可以这样做: df.checkpoint() 是否有任何我应该注意的可选参数? 是否有默认检查点目录,或者我必须指定一个作为默认目录? 当我检查点 dataframe 并 ...
火花 3.0.1 hadoop-aws 3.2.0 我有一个简单的 spark 流应用程序,它从 Kafka 主题读取消息,将它们聚合并写入 Elasticsearch。 我正在使用检查点和 S3 存储桶来存储它们。 一段时间后,应用程序开始失败,但出现以下异常: VisualVM 显示,线程数 ...
我正在使用 spark 结构化流的检查点功能,并将检查点元数据存储为 azure blob。 但是我遇到了错误,从日志看来它正在删除临时文件并尝试再次访问它。 以下是详细日志和任务计划日志 逻辑计划 Jar 版本 azure-storage - 8.4.0,hadoop-azure - 2.9.2 ...
考虑到我有一个简单的聚合,其中定义了一个没有任何水印的 window。 这里我们的 window 是30 minutes ,滑动间隔是10 minutes Q1。 这是否意味着10分钟后,它会滑动? Q2。 如果是这样,那是不是有点类似于水印? ...
考虑我有一个带有时间戳字段列的输入 df,并且在将 window 持续时间(没有滑动间隔)设置为: 10分钟输入时间(2019-02-28 22:33:02) window 形成为(2019-02-28 22:30:02) to (2019-02-28 22:40:02) 8 分钟输入相同的 ...
我对获取 S3 parquet 数据并将 parquet 数据写入 S3 的 Spark Streaming 应用程序 (Spark v2.3.2) 感兴趣。 应用程序的数据框 stream 使用groupByKey()和flatMapGroupsWithState()来使用GroupState ...
我正在尝试测试下面的程序以获取检查点并从检查点位置读取如果应用程序由于资源不可用等任何原因而失败。 当我终止作业并再次重新触发它时,执行将从头开始。 不知道实现这一目标还需要什么。 谢谢 !! 下面是代码: ...
在我们的 Spark 应用程序中,我们使用Spark structured streaming 。 它使用Kafka as input stream和HiveAcid as writeStream 。 对于HiveAcid ,它是来自qubole的名为spark acid的开源库: https:/ ...
我正在使用 spark 结构化流处理来自 kafka 主题的数据并将数据写入另一个 kafka 接收器。 我想存储偏移量两次 - 从主题中读取并搅拌偏移量时一次。 其次-将数据写入输出接收器并写入偏移量时,可以通过提供检查点目录位置来实现, 是否可以写入订阅主题期间消耗的偏移量。 ...
我有一个当前的管道,在那里我对我的数据框进行了几次转换。 插入检查点以确保可接受的执行时间很重要。 但是,我不时从任何检查点收到此错误: 你能建议吗。 ...
我有一个用例,我将数据从 Mongodb 推送到 orc 文件中的 HDFS,该文件每 1 天间隔运行一次,并将数据附加到 hdfs 中存在的 orc 文件中。 现在我担心的是,如果在写入 orc file 时,作业以某种方式失败或停止。 考虑到某些数据已经写入 orc 文件,我应该如何处理这种情 ...
我刚刚开始在本地机器上使用独立的方式学习 pyspark。 我无法让检查站工作。 我把剧本归结为这个…… 我得到这个输出...... 该错误没有给出有关失败原因的任何细节。 我怀疑我错过了一些火花配置但不确定是什么...... ...
我浏览了多个站点,例如https://spark.apache.org/docs/latest/streaming-programming-guide.html https://data-flair.training/blogs/spark-streaming-checkpoint/ htt ...