我们希望将 CDN 日志提供给 Graphite,并在其中找到汇总数据(不同 HTTP 状态代码的比率、平均响应大小、平均缓存命中率等)
然而,日志只是偶尔上传给我们,有时甚至是乱序的——偶尔,早上的日志可以在晚上上传,也就是下午的日志上传和处理后的几个小时。此外,因为 CDN(显然)有多个服务器和数据中心,不同的日志可以覆盖重叠的时间段。
这意味着,任何聚合器都需要保持对所有早期统计数据的访问,以便在处理新日志时能够增强聚合......
什么——如果有的话——可以做到这一点?以及如何配置 logstash 来输入它?谢谢!
众所周知,这是一个复杂的问题。你在你的问题中标记了 Logstash,所以我假设你有这个。
摄取日志是 Logstash 所做的。它有一个
file {}
输入插件:和一个
csv {}
过滤器来简化 CSV 数据的摄取。如果您没有 CSV 数据,也许这些行是看起来相当正常的 Apache 格式,一切都不会丢失。您可能需要花时间与 grok 相处。那是它自己的事。
只要您注意保留时间戳并且不使用明显不保留它们的statsd ,日期排序就不是问题。如果您还没有这样做,Logstash 可以获取日志文件中的日期并将其作为事件的日期/时间戳。
这将日志行的日期/时间戳作为事件的时间戳。酷,现在把它变成有用的东西。
Logstash 的库存数据存储是 elasticsearch , Elastic(该公司)正忙于尝试将时间序列数据存储与 InfluxDB 或 OpenTSDB 等专用工具一样好。可以,尽管根据我的经验,专用的性能更好。假设您输入正确,所有这些都可以以正确的顺序存储乱序事件,以便以后的查询可以吸收新信息。
Logstash的
graphite {}
输出将保留时间戳,如果您愿意,您可以使用石墨作为后备存储。influxdb {}
存在和输出插件,opentsdb {}
并将您的数据放入真正的时间序列数据库。从那里,近期数据的聚合/汇总(距您的解释几天)应在查询时完成。像grafana这样的工具可以在其中几个数据存储前面,并使显示更容易。一旦您越过了日志到达的风险区域,您就可以运行稍后的 ETL 过程以基于完整的数据集生成数据库内聚合/汇总。然后根据需要清除完整详细日志。
简而言之,方法:
date {}
日志的时间戳拉到事件的时间戳中。