字段类型在 Kibana/Elasticsearch 中不受欢迎

Question

Mikhail T.

Asked: 2017-06-23 15:56:42 +0800 CST2017-06-23 15:56:42 +0800 CST 2017-06-23 15:56:42 +0800 CST

汇总新旧事件的统计数据

772

我们希望将 CDN 日志提供给 Graphite，并在其中找到汇总数据（不同 HTTP 状态代码的比率、平均响应大小、平均缓存命中率等）

然而，日志只是偶尔上传给我们，有时甚至是乱序的——偶尔，早上的日志可以在晚上上传，也就是下午的日志上传和处理后的几个小时。此外，因为 CDN（显然）有多个服务器和数据中心，不同的日志可以覆盖重叠的时间段。

这意味着，任何聚合器都需要保持对所有早期统计数据的访问，以便在处理新日志时能够增强聚合......

什么——如果有的话——可以做到这一点？以及如何配置 logstash 来输入它？谢谢！

1 个回答

Voted

sysadmin1138 · Answer 1 · 2017-06-24T19:32:08+08:00

众所周知，这是一个复杂的问题。你在你的问题中标记了 Logstash，所以我假设你有这个。

摄取日志是 Logstash 所做的。它有一个file {}输入插件：

input {
  file {
    path => [ '/opt/export/cdn_logs/*.csv'
    tags => [ 'cdnlogs' ]
  }
}

和一个csv {}过滤器来简化 CSV 数据的摄取。

filter {
  if 'cdnlogs' in [tags] {
    csv {
      source => "message"
      columns => [
        'cdndate',
        'host_server',
        [...]
        'response_time' ]
    }
  }
}

如果您没有 CSV 数据，也许这些行是看起来相当正常的 Apache 格式，一切都不会丢失。您可能需要花时间与 grok 相处。那是它自己的事。

只要您注意保留时间戳并且不使用明显不保留它们的statsd ，日期排序就不是问题。如果您还没有这样做，Logstash 可以获取日志文件中的日期并将其作为事件的日期/时间戳。

filter {
  date {
    match => [ "cdndate", "ISO8601" ]
  }
}

这将日志行的日期/时间戳作为事件的时间戳。酷，现在把它变成有用的东西。

Logstash 的库存数据存储是 elasticsearch ， Elastic（该公司）正忙于尝试将时间序列数据存储与 InfluxDB 或 OpenTSDB 等专用工具一样好。可以，尽管根据我的经验，专用的性能更好。假设您输入正确，所有这些都可以以正确的顺序存储乱序事件，以便以后的查询可以吸收新信息。

Logstash的graphite {}输出将保留时间戳，如果您愿意，您可以使用石墨作为后备存储。

influxdb {}存在和输出插件，opentsdb {}并将您的数据放入真正的时间序列数据库。

从那里，近期数据的聚合/汇总（距您的解释几天）应在查询时完成。像grafana这样的工具可以在其中几个数据存储前面，并使显示更容易。一旦您越过了日志到达的风险区域，您就可以运行稍后的 ETL 过程以基于完整的数据集生成数据库内聚合/汇总。然后根据需要清除完整详细日志。

简而言之，方法：

使用 Logstash 摄取文件。
利用过滤从 CDN 日志文件中提取字段。
使用过滤器将date {}日志的时间戳拉到事件的时间戳中。
将数据导出到某物（弹性、石墨或其他时间序列数据库）
显示工具使用实时聚合查询向消费者显示数据，至少是近期数据。
一段时间后，可能是几天后，脚本或其他自动化过程会生成聚合并将它们输入到数据存储中。
更多时间后，将清除全分辨率数据，只留下聚合数据。

汇总新旧事件的统计数据

新安装后 postgres 的默认超级用户用户名/密码是什么？

SFTP 使用什么端口？

命令行列出 Windows Active Directory 组中的用户？

什么是 Pem 文件，它与其他 OpenSSL 生成的密钥文件格式有何不同？

如何确定bash变量是否为空？

汇总新旧事件的统计数据

1 个回答

相关问题