繁体   English   中英

在工作终止或失败时采取行动

[英]Slurm action at job termination or failure

我希望slurm工作负载管理器在因超时或失败而终止作业时执行一些操作,例如 touchstopped.txt touch stopped.txt 如何才能做到这一点?

作业终止后,普通用户无法执行进一步的操作。 (管理员可以使用strigger或设置结语脚本)

对于由于超时而终止,典型的做法是设置一个 Bash “陷阱”来捕获信号并请求 Slurm 在作业被终止前几分钟发送该信号

对于因失败而终止的情况,您可以在提交脚本中测试您的主程序的返回码并采取相应措施。

另一种选择可能被视为stopped.txt ,但更容易实现,是提交一个“监控”作业,这取决于必须采取一些操作的作业,并让该作业基于会计工作的状态

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM