在我工作的团队中,日志管理存在问题,我们管理着一百多台具有异构系统的机器,以及数百个应用程序。
具有不同平台的异构系统:windows、linux、documentum、kofax、websphere、iis 等。都有不同的日志格式和日志位置,一些在事件查看器中,大多数在单独的日志文件中,等等。
有时很难弄清楚每个系统安装了哪些机器,有时机器会耗尽可用空间,有时没有简单的方法可以找到日志的位置。
理想情况下,日志应该可以非常快速地访问,这样我们就可以立即协作解决故障,从而减少异常的停机时间。我们应该将它们保留一段时间,以便“后验”检测到不明显的问题。并且必须保证可用磁盘空间,生产环境中的系统不应该永远停止。
您知道在这种情况下可以提供帮助的解决方案和/或产品吗?
如果您可以通过 SNMP 使您想要记录的数据可用,那么Zenoss Core或Nagios/Cacti等监控工具允许您从每个系统中检索该 SNMP 数据,记录并绘制它,并在超过阈值时生成警报。SNMP 的好处是它可以免费且跨平台使用。Zenoss Core 也是免费且易于设置的。我们只使用它来监控六台服务器,但它可以扩展到数百台服务器。某些功能需要非免费企业版。
像Splunk这样的工具是另一种选择。这只是收集原始日志数据(您告诉您的服务器将其日志发送到您的 Splunk 服务器),对其进行索引并使其可搜索。您可以创建报告、仪表板和警报。它需要更多设置并且不是免费的,但功能强大,因为它非常自由,并且允许您跨多个服务器关联事件。查看他们的演示视频。
我很确定 Nagios 是你想去这里的方式。我们在我们的网络上设置了它,它工作得很好。
我们使用来自 NetApp 2020 的 NFS 挂载作为中央日志记录点——您仍然需要编写一些代码来查找问题,但至少它们都在较少的地方可以到达。