标签[spark-checkpoint] - 堆栈内存溢出

在结构化流式传输来自 kafka 主题的数据时指定检查点位置 - Specifying checkpoint location when structured streaming the data from kafka topics

我已经构建了一个 spark 结构化流应用程序，它从 kafka 主题中读取数据，我已经指定了最新的起始偏移量，如果 spark 端出现任何故障会发生什么情况，从哪个点/偏移量开始，数据将在重新启动后继续读取和在写入 stream 中指定检查点以确保我们从应用程序/spark 失败的点读取是个好主意 ...

如何将 Spark 结构化流检查点目录设置为 windows 本地目录？ - how to set spark structured streaming check point dir to windows local directory?

我的操作系统是windows 11和 Apache Spark 版本是spark-3.1.3-bin-hadoop3.2 我尝试使用带有 pyspark 的 spark 结构化流。下面是我简单的 spark 结构化流代码。没有spark.sparkContext.setCheckpointDi ...

delta mergeSchema 无法使用带有 spark 检查点的 MemoryStream - delta mergeSchema doesn't work using MemoryStream with spark checkpoint

我正在使用 Spark 的MemoryStream测试 DeltaWriter class 以创建 stream（而不是 readStream），我想将结果作为带有选项"mergeSchema": true如下所示：import org.apache.spark.sql.execution.str ...

如何减少 spark streaming 写入的检查点文件的数量 - How to reduce number of checkpoint files writen by spark streaming

如果 spark streaming 作业涉及 shuffle 和有状态处理，则每个微批处理很容易生成大量小文件。我们应该在不影响延迟的情况下减少文件数量。 ...

dataproc 火花检查点最佳实践？我也应该设置检查点目录吗？ - dataproc spark checkpoint best practices? what should I set the checkpoint dir too?

我正在运行一个非常长时间运行的批处理作业。它会产生很多OOM异常。为了最小化这个问题，添加了 checkpoints() 我应该在哪里设置检查点目录？该位置必须可供所有执行者访问。目前，我正在使用一个桶。根据日志文件，我可以看到我的代码已经通过了几个 checkpoint() 调用，但是 ...

Apache Spark 结构化流 - 不写入检查点位置 - Apache Spark Structured Streaming - not writing to checkpoint location

我有一个简单的 Apache Spark Structured Streaming python 代码，它从 Kafka 读取数据，并将消息写入控制台。我已经设置了检查点位置，但是代码没有写入检查点..任何想法为什么？这是代码： ...

为什么 checkpoint() 比 persist() 快 - Why is checkpoint() faster than persist()

我有一个使用 DataFrame 进行计算的代码。我尝试以不同的方式缓存表。我得到了让我思考的结果。为什么 checkpoint(false) 比 persist() 更有效？毕竟，检查点需要时间来序列化对象并将它们写入磁盘。 PS我在GitHub上的小项目： https ...

Dataframe 检查点示例 Pyspark - Dataframe Checkpoint Example Pyspark

我阅读了有关检查点的信息，它看起来很适合我的需求，但我找不到如何使用它的好例子。我的问题是：我应该指定检查点目录吗？是否可以这样做： df.checkpoint() 是否有任何我应该注意的可选参数？是否有默认检查点目录，或者我必须指定一个作为默认目录？当我检查点 dataframe 并 ...

Spark 结构在 S3 上使用检查点流式传输过多线程 - Spark structures streaming too many threads with checkpointing on S3

火花 3.0.1 hadoop-aws 3.2.0 我有一个简单的 spark 流应用程序，它从 Kafka 主题读取消息，将它们聚合并写入 Elasticsearch。我正在使用检查点和 S3 存储桶来存储它们。一段时间后，应用程序开始失败，但出现以下异常： VisualVM 显示，线程数 ...

Azure blob 存储的 Spark 流检查点问题：TaskCompletionListener null 中的错误 - Spark streaming checkpointing issue with Azure blob storage : Error in TaskCompletionListener null

我正在使用 spark 结构化流的检查点功能，并将检查点元数据存储为 azure blob。但是我遇到了错误，从日志看来它正在删除临时文件并尝试再次访问它。以下是详细日志和任务计划日志逻辑计划 Jar 版本 azure-storage - 8.4.0，hadoop-azure - 2.9.2 ...

在 Apache Spark 中滑动没有水印的 Window？ - Sliding Window without watermark in Apache Spark?

考虑到我有一个简单的聚合，其中定义了一个没有任何水印的 window。这里我们的 window 是30 minutes ，滑动间隔是10 minutes Q1。这是否意味着10分钟后，它会滑动？ Q2。如果是这样，那是不是有点类似于水印？ ...

spark如何使用给定的 window 间隔计算 window 开始时间？ - How spark calculates the window start time with given window interval?

考虑我有一个带有时间戳字段列的输入 df，并且在将 window 持续时间（没有滑动间隔）设置为： 10分钟输入时间(2019-02-28 22:33:02) window 形成为(2019-02-28 22:30:02) to (2019-02-28 22:40:02) 8 分钟输入相同的 ...

如何将 Spark Streaming 检查点位置存储到 S3 中？ - How to store Spark Streaming Checkpoint Location into S3?

我对获取 S3 parquet 数据并将 parquet 数据写入 S3 的 Spark Streaming 应用程序 (Spark v2.3.2) 感兴趣。应用程序的数据框 stream 使用groupByKey()和flatMapGroupsWithState()来使用GroupState ...

如何在 Spark Scala 中读取检查点 Dataframe - How to read a checkpoint Dataframe in Spark Scala

我正在尝试测试下面的程序以获取检查点并从检查点位置读取如果应用程序由于资源不可用等任何原因而失败。当我终止作业并再次重新触发它时，执行将从头开始。不知道实现这一目标还需要什么。谢谢！！下面是代码： ...

Spark Structured Streaming 使用 spark-acid writeStream（带检查点）抛出 org.apache.hadoop.fs.FileAlreadyExistsException - Spark Structured Streaming using spark-acid writeStream (with checkpoint) throwing org.apache.hadoop.fs.FileAlreadyExistsException

在我们的 Spark 应用程序中，我们使用Spark structured streaming 。它使用Kafka as input stream和HiveAcid as writeStream 。对于HiveAcid ，它是来自qubole的名为spark acid的开源库： https:/ ...

Spark Structured Streaming - 是否可以将偏移量写入两次 - Spark Structured Streaming- Is it possible to write the offset twice

我正在使用 spark 结构化流处理来自 kafka 主题的数据并将数据写入另一个 kafka 接收器。我想存储偏移量两次 - 从主题中读取并搅拌偏移量时一次。其次-将数据写入输出接收器并写入偏移量时，可以通过提供检查点目录位置来实现，是否可以写入订阅主题期间消耗的偏移量。 ...

火花检查点：错误java.io.FileNotFoundException - spark checkpoint : error java.io.FileNotFoundException

我有一个当前的管道，在那里我对我的数据框进行了几次转换。插入检查点以确保可接受的执行时间很重要。但是，我不时从任何检查点收到此错误：你能建议吗。 ...

如何处理 Spark 写入 orc 文件中的失败场景 - How to handle failure scenario in Spark write to orc file

我有一个用例，我将数据从 Mongodb 推送到 orc 文件中的 HDFS，该文件每 1 天间隔运行一次，并将数据附加到 hdfs 中存在的 orc 文件中。现在我担心的是，如果在写入 orc file 时，作业以某种方式失败或停止。考虑到某些数据已经写入 orc 文件，我应该如何处理这种情 ...

pyspark 检查点在本地机器上失败 - pyspark checkpoint fails on local machine

我刚刚开始在本地机器上使用独立的方式学习 pyspark。我无法让检查站工作。我把剧本归结为这个…… 我得到这个输出...... 该错误没有给出有关失败原因的任何细节。我怀疑我错过了一些火花配置但不确定是什么...... ...

启用检查点的 Spark 流 SQS - Spark streaming SQS with checkpoint enable

我浏览了多个站点，例如https://spark.apache.org/docs/latest/streaming-programming-guide.html https://data-flair.training/blogs/spark-streaming-checkpoint/ htt ...