繁体 English 中英

火花流失败的批次

[英]spark streaming failed batches

原文 2016-06-02 14:35:48 6 1 apache-spark/ spark-streaming

由于内存相关问题，我在火花流应用程序中看到一些失败的批处理

无法计算拆分，找不到块输入0-1464774108087

，而且我想知道是否有一种方法可以在不对当前正在运行的应用程序造成混乱的情况下在一边重新处理这些批处理，就一般而言，不必完全相同。

在此先感谢Pradeep

1 个解决方案

如果您的数据吸收到火花的速率高于分配的或可以保留的内存，则可能会发生这种情况。 您可以尝试将StorageLevel更改为MEMORY_AND_DISK_SER以便在内存不足时Spark可以将数据溢出到磁盘上。 这样可以防止您的错误。

另外，我不认为此错误意味着在处理过程中任何数据都会丢失，但是您的块管理器添加的输入块在处理开始之前就已超时。

在Spark用户列表中检查类似的问题。

编辑：

数据不会丢失，只是不存在任务预期的位置。 根据Spark文档：

您可以使用其上的persist（）或cache（）方法将一个RDD标记为持久。 第一次在操作中对其进行计算时，它将被保存在节点上的内存中。 Spark的缓存是容错的-如果RDD的任何分区丢失，它将使用最初创建它的转换自动重新计算。

Spark流待处理批次

[英]Spark streaming pending batches

为什么Spark流式传输会创建0个事件的批次？

[英]Why Spark streaming creates batches with 0 events?

批处理之间的Spark流数据共享

[英]Spark streaming data sharing between batches

Spark Streaming：微批并行执行

[英]Spark Streaming: Micro batches Parallel Execution

为什么Spark Streaming将所有批次保留在内存中？

[英]Why Spark Streaming keeps all batches in memory?

Spark流式处理：跨批次缓存DStream结果

[英]Spark streaming: Cache DStream results across batches

DSE Spark流：长期活跃的批处理队列

[英]DSE Spark Streaming: Long active batches queue

Spark Streaming：排长队/活跃批次

[英]Spark Streaming: long queued/active batches

在 Spark 结构化流处理中跳过批次

[英]Skipping of batches in spark structured streaming process

如何更改Spark Streaming中已完成的批次数？

[英]How to change the completed batches count in spark streaming?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Spark流待处理批次为什么Spark流式传输会创建0个事件的批次？批处理之间的Spark流数据共享 Spark Streaming：微批并行执行为什么Spark Streaming将所有批次保留在内存中？ Spark流式处理：跨批次缓存DStream结果 DSE Spark流：长期活跃的批处理队列 Spark Streaming：排长队/活跃批次在 Spark 结构化流处理中跳过批次如何更改Spark Streaming中已完成的批次数？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM