昨晚(周日晚上 22:00)我们进行了一次电路旅行,导致所有外部通讯中断......所以我们大楼内服务器上的警报无法通信。有针对这个的解决方法吗?可能是一个 SAAS,它监控/PING 我们的服务器,然后在出现 COMM 故障时发出警报(除了对我们的服务器监控记录的实际故障发出警报)
(我们不是一家大公司,所以当主要和次要互联网连接同时出现故障时,不太可能想花钱购买一种通信方式,就像昨晚一样)
这个事件对我们来说很不寻常,我们通常不会在周日晚上从床上得到支持(例如单点故障)......但是总的通信故障有点不同,因为我们有人想在 05:00 连接(当地时间)周一早上……直到 IT 人员 08:00 到达办公室,他们才能也无法联系到支持人员
我们在 4 个站点有服务器,因此如果无法与其他站点通信,一个选项是使用每个站点发出警报。我更喜欢一些更复杂的东西,这样我们就可以在所有 3 个站点都无法与第 4 个站点通信时创建一个严重警报(事实上,关键的严重故障是“没有附属站点可以与主总部站点通信”)
我们使用 Servers Alive 进行一些监控,因此一种选择是使用 Servers Alive 在每个站点创建一个网页,以便支持人员可以查看它们以查看每个站点所看到的状态和故障时间戳。如果从站点 A 到站点 B 的 PING 失败,这也可以发出警报,但是我们在农村地区并且会遇到很多间歇性的单站点 A 到 B PING 故障......
我的理想是一个远程监控服务,它可以配置为仅在某些测试组合失败时升级为关键 - 例如,所有远程站点都无法 PING 主要总部站点。
我看到您已经有了一些有效的想法,但这里有另一个:
像https://datadoghq.com和https://pagerduty.com这样的组合可能会以每月几美元的价格解决这个问题。
您面临的挑战是您的监控解决方案 (ServersAlive) 依赖于它所监控的基础架构。您可以通过多种方式来解决此问题,其中一种您已经建议过。
在每个站点设置 ServersAlive 检查以检查每个其他站点(网站、ping 等)的组件。然后设置一个外部监视器(Uptime Robot 等)来监视每个站点(网站、ping 等)的组件。然后,根据您收到的警报,您应该能够确定问题是内部问题还是互联网连接等。
另一种选择是在每个站点配置 ServersAlive 以监控其他站点的所有组件。因此,SiteA 监控 SiteB,SiteB 监控 SiteC 等。这样,您在每个站点的监控不依赖于被监控的基础设施。