服务器故障时,你们用什么软件或系统来提醒你们做日常维护?您如何检查并记录您应该检查的各种项目?您有内部流程文件吗?您是否每周都有 cron 邮件提醒您检查系统日志?
另外,你是否在一个团队中进行系统维护,如果是,你如何协调谁来做哪些维护?
如果您使用错误/问题跟踪系统输入任务,您是否有一个 cron 作业输入重复任务?
服务器故障时,你们用什么软件或系统来提醒你们做日常维护?您如何检查并记录您应该检查的各种项目?您有内部流程文件吗?您是否每周都有 cron 邮件提醒您检查系统日志?
另外,你是否在一个团队中进行系统维护,如果是,你如何协调谁来做哪些维护?
如果您使用错误/问题跟踪系统输入任务,您是否有一个 cron 作业输入重复任务?
我目前正在使用 Request Tracker ( http://www.bestpractical.com/rt )
所有维护事件都会在“系统”队列中获得关联的票证。遇到的问题、谁在什么时候做了什么工作等的注释都输入了工单,以及必要的批准。
目前,我们的重复任务(季度修补等)是手动创建的,但它们可以很容易地自动化(cron 作业 + 电子邮件)。
协调谁在做什么工作对我们来说相对容易,因为我们的管理组中只有 2 人,但随着我们扩大计划,我们计划为维护活动创建主工单并使用分配给责任方的子工单来委派工作.
日常工作(日志检查等)是另一回事:我将所有这些都外包给了自动化流程:
Outlook和OneNote
正确实施的自动化完全消除了对任务和检查清单的需求。当您拥有可以更有效地完成工作的计算机时,为什么还要手动检查?
任何需要定期检查的东西都由监控系统检查。只要实际可行,例行任务就会自动执行,并且会为需要手动完成的少数任务发送提醒。文档是另一回事,但如果做得好,您的计算机大多可以创建自己的文档。
停止寻找更好的手动方式,并开始寻找更好的自动化方式来完成任何工作。计算机是为我们工作的,而不是我们为他们工作的。
对于项目工作,它被排除在项目管理应用程序之外(电子邮件和日历集成了记录详细工作并为特定人员安排日程的能力)。
对于维护、升级、修复等,我们有一个票务系统,它或多或少地与我们的变更管理流程集成以处理请求和调度。
对于完全由内部驱动的工作和长周期(每季度、每年等)的工作:
做事情的提醒是日历式的。存在非正式/半正式文档(“wiki”),用于说明一般时间表。
存在一些关于如何执行任务的“操作方法”和程序文档,并且可供整个团队访问,但人们有自己的管理员“黑皮书”和带有注释和食谱的日志。
监控系统可以帮助解决这些问题:
我们在带有复选框的 word doc 文件中记录每一轮每月维护。每个月我们都会将报告保存到 NAS 上的文件夹中。我们监控文件夹的最小文件年龄。如果最小文件期限超过 40 天,我们会收到警报。
我们日常维护的一部分是每月重新启动一次选定的服务器和设备。我们在监控软件上使用“系统正常运行时间”传感器 (SNMP/WMI),如果正常运行时间超过 40 天,我们会收到警报。
对于备份,我们监控 NAS 上每个服务器的备份文件夹中的最短文件期限。如果最小文件期限超过 10 天,我们会收到警报。
我使用 Checkpanel ( https://checkpanel.com ) 来管理我的定期维护任务。它提供了可重复使用的清单和一个简单的界面来记录每次检查的结果。
检查项目后,它不仅“完成”,而且仍可用于进一步检查。每项检查都会被记录下来,这样您就可以轻松查看项目所有过去检查的历史记录——包括可选的详细信息(例如,检查失败的错误消息)。
您可以为每个项目设置重复周期,以确保您每周/每 2 天/等至少检查一次。所有到期项目都有一个合并视图。如果您愿意,您还可以收到包含所有到期项目的每日电子邮件。
有一个服务器维护清单模板,您可以将其用作您自己的清单的基础。其他模板包括 Web 应用程序、WordPress 等的清单。
披露:我是 Checkpanel 的创始人。