我是 IT 行业的新手;我不是系统管理员......我是一名道路建设人员。因此,如果我混淆了任何术语、概念等,请告诉我。
我所在组织的 IT 部门非常小。在保持我们的 IT 系统“正常运行”方面,我们似乎几乎没有踩水。
导致系统中断最多的是Windows Server 更新。Windows 更新似乎每月大约会关闭我们的应用程序服务器一次。
更新计划在每月下班后自动进行。
这是最近中断的示例:
包含用于我们工作订单管理系统的 WebSphere JVM 的应用程序服务器在深夜自动更新(通过 1 个月的计划)。
今天,当用户开始使用工单管理系统时,我们从 JVM中得到了一堆集成/java 错误。
经过调查,很明显问题是由更新引起的。我们以前从未遇到过这个问题,它发生在应用更新之后。
我们的系统管理员重新启动了服务器,这似乎立即解决了问题。我们处理了失败的集成消息等,生活还在继续(至少在下一次更新发生之前)。
我知道我的组织并不是唯一一个与 Windows 更新问题作斗争的组织。这似乎是一个相当普遍的问题。
但我的问题是:
是否有处理我的组织可能忽略的更新的技术?
例如,我想到我们可以:
- 在星期六早上手动应用更新并重新启动服务器
- 彻底测试我们所有的系统
- 如果需要,整个周末都可以处理问题并重新启动服务器(而不是在工作时间进行现场直播)。
是否有类似的标准做法来降低更新 Windows 服务器带来的风险?
很遗憾得知您的生产环境中由于 Windows 服务器更新而出现的所有错误。我不使用 Windows 服务器,但几乎可以肯定这些更新可以被禁用以不自动应用。通常发生的情况是有两种环境,一种用于测试,一种用于生产,因此您不要在测试环境中部署任何尚未经过测试的东西。
您还可以找到有趣的主题,例如DevOps ITIL 云计算。
如果信息有帮助,请不要忘记投票或接受答案。