我有一堆服务负责运行队列中消耗的操作。
我希望能够轻轻地重新启动服务(不中断已经运行的操作)
可以通过处理 systemd 发送的 SIGTERM 并保存程序在当前操作处理后应该退出的信息来解决。
还有一个小问题是,在服务配置文件中定义的一段时间后,TimeoutStopSec
systemd 将发送额外的 SIGKILL 以残酷地终止我的进程。
我可以通过设置轻松避免它TimeoutStopSec=infinity
。然后systemctl stop
'将等到脚本自行终止,这可能会持续一个多小时,并导致我遇到主要问题。
我不希望systemctl
命令等到脚本结束
看起来SendSIGKILL=no
配置完成了这项工作。SIGTERM
这导致在之后重试TimeoutStopSec
,然后创建新的工作人员,并让旧的工作人员继续运行。
journalctl 日志
May 06 14:14:43 jaku systemd[1]: Stopping Jaku test worker...
May 06 14:14:43 jaku python3[31597]: * 15 <frame object at 0x14d8108>
May 06 14:14:53 jaku systemd[1]: jaku-test-worker.service: State 'stop-sigterm' timed out. Skipping SIGKILL.
May 06 14:14:53 jaku python3[31597]: * 15 <frame object at 0x14d8108>
May 06 14:15:03 jaku systemd[1]: jaku-test-worker.service: State 'stop-final-sigterm' timed out. Skipping SIGKILL. Entering failed mode.
May 06 14:15:03 jaku systemd[1]: jaku-test-worker.service: Failed with result 'timeout'.
May 06 14:15:03 jaku systemd[1]: Stopped Jaku test worker.
May 06 14:15:03 jaku systemd[1]: jaku-test-worker.service: Found left-over process 31597 (python3) in control group while starting unit. Ignoring.
May 06 14:15:03 jaku systemd[1]: This usually indicates unclean termination of a previous run, or service implementation deficiencies.
May 06 14:15:03 jaku systemd[1]: Started Jaku test worker.
jaku@jaku:/nfs/home/jaku/tmp$ ps aux | grep "sig.py"
jaku 31597 99.9 0.0 31884 9916 ? Rs 14:00 15:10 /usr/bin/python3 /home/jaku/tmp/sig.py
jaku 32359 100 0.0 31884 10032 ? Rs 14:15 0:43 /usr/bin/python3 /home/jaku/tmp/sig.py
jaku 32483 0.0 0.0 15968 1040 pts/7 S+ 14:15 0:00 grep --color=auto sig.py
解决方案看起来像是在做它的工作,但我很担心这句话:
这通常表示先前运行的不干净终止,或服务实现缺陷。
我错过了什么或者它真的是最好的解决方案吗?
参考:
systemd 停止服务的想法是终止与该单元的 cgroup 关联的所有进程。运行
ExecStop=
之后再发送KillSignal=
,最后如果有必要FinalKillSignal=
。对我来说似乎很合理。您的软件正在处理 SIGTERM,使进程保持活动状态,然后将该单元配置为不发送 SIGKILL。systemd 认为这是损坏的,警告意味着“服务实现缺陷”。它没有停止。
然后在一分钟左右关闭。服务的用户不想等待它关闭;
DefaultTimeoutStopSec=
大概是90年代。虽然您的服务单位可以增加TimeoutStopSec=
,但我认为一个小时是不合理的时间来等待初始化脚本中停止的事情。如果您有(同步)停止脚本,请将其实现为
ExecStop=
. 如果不是,请立即将 SIGTERM 处理为正常关闭。启用 SIGKILL 作为停止它的最后手段。除了杀死它的进程之外,还有其他方法可以阻止服务开始工作。例如,将其从负载均衡器中移除并耗尽负载。
看起来没有办法解决它,这里有一些 相关的线程。但是......我不希望命令等到脚本结束
的假设是错误的。
systemctl
我希望这个命令简短,因为它必须是 jenkins 部署的一部分,而且我不希望部署过程花费超过几分钟。
我不知道的是,中断
systemctl
命令不会停止关闭服务的过程,所以可能的解决方案是:systemctl
有时间限制的运行命令,例如timeout 60 systemctl restart services-preifx-* || echo "processes will be restart in background"
现在
TimeoutStopSec
可以设置为某个较高的值(如 10h)以防止服务永远重启。另外
KillMode=process
必须设置,不要中断任何子进程。听起来您想
systemctl
使用该--no-block
参数运行: