昨晚(周日晚上 22:00)我们进行了一次电路旅行,导致所有外部通讯中断......所以我们大楼内服务器上的警报无法通信。有针对这个的解决方法吗?可能是一个 SAAS,它监控/PING 我们的服务器,然后在出现 COMM 故障时发出警报(除了对我们的服务器监控记录的实际故障发出警报)
(我们不是一家大公司,所以当主要和次要互联网连接同时出现故障时,不太可能想花钱购买一种通信方式,就像昨晚一样)
这个事件对我们来说很不寻常,我们通常不会在周日晚上从床上得到支持(例如单点故障)......但是总的通信故障有点不同,因为我们有人想在 05:00 连接(当地时间)周一早上……直到 IT 人员 08:00 到达办公室,他们才能也无法联系到支持人员
我们在 4 个站点有服务器,因此如果无法与其他站点通信,一个选项是使用每个站点发出警报。我更喜欢一些更复杂的东西,这样我们就可以在所有 3 个站点都无法与第 4 个站点通信时创建一个严重警报(事实上,关键的严重故障是“没有附属站点可以与主总部站点通信”)
我们使用 Servers Alive 进行一些监控,因此一种选择是使用 Servers Alive 在每个站点创建一个网页,以便支持人员可以查看它们以查看每个站点所看到的状态和故障时间戳。如果从站点 A 到站点 B 的 PING 失败,这也可以发出警报,但是我们在农村地区并且会遇到很多间歇性的单站点 A 到 B PING 故障......
我的理想是一个远程监控服务,它可以配置为仅在某些测试组合失败时升级为关键 - 例如,所有远程站点都无法 PING 主要总部站点。