cost 110 ms
在结构化流式传输来自 kafka 主题的数据时指定检查点位置 - Specifying checkpoint location when structured streaming the data from kafka topics

我已经构建了一个 spark 结构化流应用程序,它从 kafka 主题中读取数据,我已经指定了最新的起始偏移量,如果 spark 端出现任何故障会发生什么情况,从哪个点/偏移量开始,数据将在重新启动后继续读取和在写入 stream 中指定检查点以确保我们从应用程序/spark 失败的点读取是个好主意 ...

dataproc 火花检查点最佳实践? 我也应该设置检查点目录吗? - dataproc spark checkpoint best practices? what should I set the checkpoint dir too?

我正在运行一个非常长时间运行的批处理作业。 它会产生很多OOM异常。 为了最小化这个问题,添加了 checkpoints() 我应该在哪里设置检查点目录? 该位置必须可供所有执行者访问。 目前,我正在使用一个桶。 根据日志文件,我可以看到我的代码已经通过了几个 checkpoint() 调用,但是 ...

Dataframe 检查点示例 Pyspark - Dataframe Checkpoint Example Pyspark

我阅读了有关检查点的信息,它看起来很适合我的需求,但我找不到如何使用它的好例子。 我的问题是: 我应该指定检查点目录吗? 是否可以这样做: df.checkpoint() 是否有任何我应该注意的可选参数? 是否有默认检查点目录,或者我必须指定一个作为默认目录? 当我检查点 dataframe 并 ...

Spark 结构在 S3 上使用检查点流式传输过多线程 - Spark structures streaming too many threads with checkpointing on S3

火花 3.0.1 hadoop-aws 3.2.0 我有一个简单的 spark 流应用程序,它从 Kafka 主题读取消息,将它们聚合并写入 Elasticsearch。 我正在使用检查点和 S3 存储桶来存储它们。 一段时间后,应用程序开始失败,但出现以下异常: VisualVM 显示,线程数 ...

Azure blob 存储的 Spark 流检查点问题:TaskCompletionListener null 中的错误 - Spark streaming checkpointing issue with Azure blob storage : Error in TaskCompletionListener null

我正在使用 spark 结构化流的检查点功能,并将检查点元数据存储为 azure blob。 但是我遇到了错误,从日志看来它正在删除临时文件并尝试再次访问它。 以下是详细日志和任务计划日志 逻辑计划 Jar 版本 azure-storage - 8.4.0,hadoop-azure - 2.9.2 ...

在 Apache Spark 中滑动没有水印的 Window? - Sliding Window without watermark in Apache Spark?

考虑到我有一个简单的聚合,其中定义了一个没有任何水印的 window。 这里我们的 window 是30 minutes ,滑动间隔是10 minutes Q1。 这是否意味着10分钟后,它会滑动? Q2。 如果是这样,那是不是有点类似于水印? ...

spark如何使用给定的 window 间隔计算 window 开始时间? - How spark calculates the window start time with given window interval?

考虑我有一个带有时间戳字段列的输入 df,并且在将 window 持续时间(没有滑动间隔)设置为: 10分钟输入时间(2019-02-28 22:33:02) window 形成为(2019-02-28 22:30:02) to (2019-02-28 22:40:02) 8 分钟输入相同的 ...

Spark Structured Streaming 使用 spark-acid writeStream(带检查点)抛出 org.apache.hadoop.fs.FileAlreadyExistsException - Spark Structured Streaming using spark-acid writeStream (with checkpoint) throwing org.apache.hadoop.fs.FileAlreadyExistsException

在我们的 Spark 应用程序中,我们使用Spark structured streaming 。 它使用Kafka as input stream和HiveAcid as writeStream 。 对于HiveAcid ,它是来自qubole的名为spark acid的开源库: https:/ ...

Spark Structured Streaming - 是否可以将偏移量写入两次 - Spark Structured Streaming- Is it possible to write the offset twice

我正在使用 spark 结构化流处理来自 kafka 主题的数据并将数据写入另一个 kafka 接收器。 我想存储偏移量两次 - 从主题中读取并搅拌偏移量时一次。 其次-将数据写入输出接收器并写入偏移量时,可以通过提供检查点目录位置来实现, 是否可以写入订阅主题期间消耗的偏移量。 ...

如何处理 Spark 写入 orc 文件中的失败场景 - How to handle failure scenario in Spark write to orc file

我有一个用例,我将数据从 Mongodb 推送到 orc 文件中的 HDFS,该文件每 1 天间隔运行一次,并将数据附加到 hdfs 中存在的 orc 文件中。 现在我担心的是,如果在写入 orc file 时,作业以某种方式失败或停止。 考虑到某些数据已经写入 orc 文件,我应该如何处理这种情 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM