[英]Slurm action at job termination or failure
我希望slurm
工作负载管理器在因超时或失败而终止作业时执行一些操作,例如 touchstopped.txt touch stopped.txt
如何才能做到这一点?
作业终止后,普通用户无法执行进一步的操作。 (管理员可以使用strigger
或设置结语脚本)
对于由于超时而终止,典型的做法是设置一个 Bash “陷阱”来捕获信号并请求 Slurm 在作业被终止前几分钟发送该信号。
对于因失败而终止的情况,您可以在提交脚本中测试您的主程序的返回码并采取相应措施。
另一种选择可能被视为stopped.txt
,但更容易实现,是提交一个“监控”作业,这取决于必须采取一些操作的作业,并让该作业基于会计工作的状态。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.