标签[checkpointing] - 堆栈内存溢出

Flink 增量 CheckPointing 压实 - Flink Incremental CheckPointing Compaction

我们有一个永远运行的 flink 作业，它从 kafka 读取数据，创建滑动时间 windows（流间隔：1 小时，2 小时到 24 小时）和（滑动间隔：1 分钟，10 分钟到 1 小时）。基本上是：KafkaSource.keyBy(keyId).SlidingWindow(stream, sl ...

如何使用 AWS S3 在 XTDB 节点上配置检查点 - How to configure checkpointing on an XTDB node using AWS S3

我正在使用部署在 AWS/ECS (Fargate) 上的 XTDB 1.21.0，配置了检查点（频率为 30 分钟）并存储在 S3 存储桶 (RocksDB) 上。在几个成功的检查点之后，由于对 AWS 的 HTTP 请求中的异常，它们似乎不断失败并发出 XTDB 警告，如下所示：这会使 ...

如何使用 Tensorflow.Checkpoint 恢复先前训练的网络 - How can I use Tensorflow.Checkpoint to recover a previously trained net

我正在尝试了解如何使用tensorflow.train.Checkpoint.restore恢复已保存/设置检查点的网络。我正在使用基于 Google 的 Colab 教程创建 pix2pix GAN 的代码。下面，我摘录了关键部分，它只是尝试实例化一个新网络，然后用保存和检查点的先前网络的权 ...

正确发送 Flink state 到 Kafka - Correctly sending Flink state to Kafka

我正在构建一个 Kafka -> Flink -> Kafka 管道，它与描述的“会话”数据一起使用。我输入的 Kafka 主题具有以下格式的数据，并为session_key构成一个 session ：像这样的每个 session 大约有 100 个事件，快速进入（每 1-2 秒） ...

使用 LD_PRELOAD 进行检查点——如何操作指令指针和调用堆栈？ - Checkpointing with LD_PRELOAD -- how to manipulate the instruction pointer and call stack?

LD_PRELOAD 技术允许我们向现有二进制文件提供我们自己的自定义标准库函数，覆盖标准函数或操纵它们的行为，提供一种有趣的方式来试验二进制文件并了解其行为。我读过 LD_PRELOAD 可用于“检查点”程序 --- 也就是说，生成完整 memory state 的记录，在任何给定时间调用堆 ...

Apache Flink Checkpoining（手动将值放入 RocksDB Checkpoint 并在恢复或重启期间检索） - Apache Flink Checkpoining (Manually put a value into RocksDB Checkpoint and retrieve during recovery or Restart)

我们有一个场景，我们必须将一些值持久化/保存到检查点中，并在故障恢复/应用程序重新启动期间将其取回。我们遵循了一些诸如 ValueState、ValueStateDescriptor 之类的东西仍然无法正常工作。 https://github.com/realtime-storage-engi ...

Bash 脚本检查点 - Bash script checkpoints

我正在开发一个大脚本，它的骨架如下所示：#!/bin/bash load_variables() function_1() function_2() function_3() [...] function_n() 在每次起飞期间，首先将用户标志加载到load_variables() funct ...

Flink 检查点适用于 ProcessFunction 但不适用于 AsyncFunction - Flink checkpointing working for ProcessFunction but not for AsyncFunction

我启用了操作员检查点并为ProcessFunction操作员顺利工作。在作业失败时，我可以看到操作符状态如何在snapshotState()挂钩上外部化，在恢复时，我可以看到如何在initializeState()挂钩上恢复状态。但是，当我尝试在AsyncFunction上实现Checkpo ...

如何在保存为.pth 文件的 AI model 上获取层执行时间？ - How to get layer execution time on an AI model saved as .pth file?

我正在尝试在 CPU 上运行类似 Resnet 的图像分类 model，并且想知道运行 model 的每一层所需的时间细分。我面临的问题是 github 链接https://github.com/facebookresearch/semi-supervised-ImageNet1K-models ...

Azure 事件中心流式处理：检查点是否覆盖 setStartingPosition？ - Azure Event Hubs Streaming: Does Checkpointing override setStartingPosition?

如果我们在 EventHub conf 中指定起始 position，如下所示：并在 StreamWriter 中指定检查点位置重新启动后， setStartingPosition是否变得无关紧要，因为检查点始终用作开始读取的点？谢谢。 ...

Apache Flink 将 S3 用于后端状态和检查点 - Apache Flink to use S3 for backend state and checkpoints

背景我计划使用 S3 使用FsStateBackend存储 Flink 的检查点。但不知何故，我收到以下错误。错误 Flink 版本：我使用的是 Flink 1.10.0 版本。 ...

有什么方法可以确保所有 CheckpointListeners 通知 Flink 上的检查点完成，在作业取消时使用保存点取消？ - Is there any way to ensure all CheckpointListeners notified about checkpoint completion on Flink on job cancel with savepoint?

我正在使用 flink 1.9 和 REST API /jobs/:jobid/savepoints来触发保存点并取消作业（优雅地停止作业以便稍后从保存点运行）。我在源代码 function 中使用两阶段提交，因此我的源代码实现了CheckpointedFunction和CheckpointLi ...

如何恢复 tensorflow2 中的特定检查点（实现提前停止）？ - How to restore a specific checkpoint in tensorflow2 (to implement early stopping)?

我使用以下代码在训练 model 的循环之外创建了一个检查点管理器：然后在训练 model 时，我使用ckpt_save_path = ckpt_manager.save()在每个 epoch 后保存变量。鉴于我想实现一种提前停止方法，我需要在特定时期之后恢复所有变量并使用这些变量进行预测。 ...

空闲时更新 Azure.Messaging.EventHubs.EventProcessorClient 上的 EventHub 分区 Offset 检查点 - Update EventHub Partition Offsett Checkpoint on Azure.Messaging.EventHubs.EventProcessorClient When Idle

在我的场景中，我将同时接收大量事件，然后在 EventHub 空闲时等待很长时间。在我的处理器客户端中，我想每 N 个事件或 N 分钟（以先到者为准）检查一次。以下是我设置 Azure.Messaging.EventHubs.EventProcessorClient 的方式：在我的 Proce ...

正在进行的快照过多。增加 kafka 生产者池大小或减少并发检查点的数量 - Too many ongoing snapshots. Increase kafka producers pool size or decrease number of concurrent checkpoints

我正在开发一个沉入 Kafka 的 Flink 应用程序。我创建了一个默认池大小为 5 的 Kafka 生产者。我使用以下配置启用了检查点：该应用程序有时会因以下异常而不断崩溃。这是 kafka 生产者池大小或检查点的问题吗？ ...

既然不是“检查点”，那么崩溃恢复恢复TensorFlow 2.0训练的标准方法是什么？ - Since it is not "checkpoint", what is the standard method for crash-recovery to resume TensorFlow 2.0 Training?

要在崩溃后恢复训练，不仅必须恢复模型，还必须恢复进入model.fit(...)过程状态的所有对象和参数。在我费心去 fork keras代码以实现一个fitting对象之前，例如包括训练数据，我想知道标准方法是什么（如果有的话）用于崩溃恢复以在它停止的地方恢复 TensorFlow 2.0 训 ...

PyTorch 中的 .pt、.pth 和 .pwf 扩展有什么区别？ - What is the difference between .pt, .pth and .pwf extentions in PyTorch?

我在一些代码示例中看到，人们使用 .pwf 作为模型文件保存格式。但是在 PyTorch 文档中推荐使用 .pt 和 .pth。我使用了 .pwf 并且对于小型 1->16->16 卷积网络工作得很好。我的问题是这些格式之间有什么区别？为什么在 PyTorch 文档中甚至不推荐 ...

TF Keras ModelCheckpoint 文件路径批号 - TF Keras ModelCheckpoint filepath batch number

我正在使用ModelCheckpoint在每个时期每 500 个批次保存检查点。它记录在这里https://www.tensorflow.org/api_docs/python/tf/keras/callbacks/ModelCheckpoint 。我将如何设置filepath以包含批号？我知 ...

Stream 处理：应该多久启动一次检查点？ - Stream Processing: How often should a checkpoint be initiated?

我正在使用 Apache Flink 设置分析管道来处理 IoT 数据的 stream。在尝试配置系统时，我似乎找不到任何关于应该多久启动一次检查点的来源？是否有任何建议或严格的经验法则？例如 1 秒、10 秒、1 分钟等？编辑：另外，有没有办法在运行时以编程方式配置检查点间隔？ ...

RuntimeError：CUDA运行时错误（35）：CUDA驱动程序版本对于CUDA运行时版本不足，位于Torch / csrc / cuda / Module.cpp：51 - RuntimeError: cuda runtime error (35) : CUDA driver version is insufficient for CUDA runtime version at torch/csrc/cuda/Module.cpp:51

当我尝试加载pytorch检查点时：我懂了： RuntimeError：CUDA运行时错误（35）：CUDA驱动程序版本对于CUDA运行时版本不足，位于Torch / csrc / cuda / Module.cpp：51 我创建了具有可用GPU的检查点，但现在只有C ...