想象一些带有各种脚本(主要是 PERL,但也可以是任何写入 STDERR 的脚本)的 linux 系统,它们由具有略微不同需求的不同用户运行 100 次。
记录每次运行脚本的输出和警告/错误 (stderr)。这意味着正在积累 1000 条日志。
用户会犯错误。而且开发人员并不总是编写干净的代码等。
我们想从日志中了解正在发生的事情,无论是(以编程方式)在每种情况下,还是(以管理方式、分析方式)了解随时间变化的趋势。
这个问题也可以在 web 服务器/cgi 上下文中考虑,因为这通常会生成 100 次脚本运行,但我不是在寻找 apache 访问/错误日志特有的解决方案。
一般来说,存在哪些免费/开源软件工具来识别和分析来自这样一组日志的异常输出,其中每个日志代表一个过程的一次运行?
有用的功能可能包括:
- 可以将此运行的标准输出/标准错误与历史输出进行比较,并确定标准输出或标准错误的哪些部分异常或值得注意
- 通过消除将相同错误存储 100 次或更多次的需要,可以实现“压缩”而不是以纯文本形式存储所有日志
- 可以分析整个商店的趋势(此消息显示的次数比过去少或多)以及计数(最常见的错误是这些)
- 具有某种带有图形和数据导出功能的可浏览用户界面
例如,可以获取从 stderr 生成的所有日志,对它们进行分类,然后通过 sort 和 uniq -c 运行它们,然后再次排序以生成从最不频繁到最频繁的错误字符串列表。也可以开始将日志转储到某种 SQL 数据库中。
这可能成为工具的构建块,但也许已经有完整的包可以做到这一点,而且更多。所以我想我会问看看其他人使用什么。
您是否为这类事情开发了内部工具,或者有没有好的开源替代品?
我的想法是:使用 petit ( http://opensource.eyemg.com/Petit ) 来分析而不是 uniq。日志可以以 .gz 格式存储,因此以下内容可以实现您的前 3 个目标,并且它是 GPL。没有图形界面或导出的概念。
或者
听起来Splunk可以很好地满足您的许多要求,如果不是全部的话。运行评估非常容易。如果您已经考虑过它,请评论为什么它不适合您的需求。
干杯