AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / server / 问题 / 857403
Accepted
Mikhail T.
Mikhail T.
Asked: 2017-06-23 15:56:42 +0800 CST2017-06-23 15:56:42 +0800 CST 2017-06-23 15:56:42 +0800 CST

汇总新旧事件的统计数据

  • 772

我们希望将 CDN 日志提供给 Graphite,并在其中找到汇总数据(不同 HTTP 状态代码的比率、平均响应大小、平均缓存命中率等)

然而,日志只是偶尔上传给我们,有时甚至是乱序的——偶尔,早上的日志可以在晚上上传,也就是下午的日志上传和处理后的几个小时。此外,因为 CDN(显然)有多个服务器和数据中心,不同的日志可以覆盖重叠的时间段。

这意味着,任何聚合器都需要保持对所有早期统计数据的访问,以便在处理新日志时能够增强聚合......

什么——如果有的话——可以做到这一点?以及如何配置 logstash 来输入它?谢谢!

logstash
  • 1 1 个回答
  • 66 Views

1 个回答

  • Voted
  1. Best Answer
    sysadmin1138
    2017-06-24T19:32:08+08:002017-06-24T19:32:08+08:00

    众所周知,这是一个复杂的问题。你在你的问题中标记了 Logstash,所以我假设你有这个。

    摄取日志是 Logstash 所做的。它有一个file {}输入插件:

    input {
      file {
        path => [ '/opt/export/cdn_logs/*.csv'
        tags => [ 'cdnlogs' ]
      }
    }
    

    和一个csv {}过滤器来简化 CSV 数据的摄取。

    filter {
      if 'cdnlogs' in [tags] {
        csv {
          source => "message"
          columns => [
            'cdndate',
            'host_server',
            [...]
            'response_time' ]
        }
      }
    }
    

    如果您没有 CSV 数据,也许这些行是看起来相当正常的 Apache 格式,一切都不会丢失。您可能需要花时间与 grok 相处。那是它自己的事。

    只要您注意保留时间戳并且不使用明显不保留它们的statsd ,日期排序就不是问题。如果您还没有这样做,Logstash 可以获取日志文件中的日期并将其作为事件的日期/时间戳。

    filter {
      date {
        match => [ "cdndate", "ISO8601" ]
      }
    }
    

    这将日志行的日期/时间戳作为事件的时间戳。酷,现在把它变成有用的东西。

    Logstash 的库存数据存储是 elasticsearch , Elastic(该公司)正忙于尝试将时间序列数据存储与 InfluxDB 或 OpenTSDB 等专用工具一样好。可以,尽管根据我的经验,专用的性能更好。假设您输入正确,所有这些都可以以正确的顺序存储乱序事件,以便以后的查询可以吸收新信息。

    Logstash的graphite {}输出将保留时间戳,如果您愿意,您可以使用石墨作为后备存储。

    influxdb {}存在和输出插件,opentsdb {}并将您的数据放入真正的时间序列数据库。

    从那里,近期数据的聚合/汇总(距您的解释几天)应在查询时完成。像grafana这样的工具可以在其中几个数据存储前面,并使显示更容易。一旦您越过了日志到达的风险区域,您就可以运行稍后的 ETL 过程以基于完整的数据集生成数据库内聚合/汇总。然后根据需要清除完整详细日志。

    简而言之,方法:

    1. 使用 Logstash 摄取文件。
    2. 利用过滤从 CDN 日志文件中提取字段。
    3. 使用过滤器将date {}日志的时间戳拉到事件的时间戳中。
    4. 将数据导出到某物(弹性、石墨或其他时间序列数据库)
    5. 显示工具使用实时聚合查询向消费者显示数据,至少是近期数据。
    6. 一段时间后,可能是几天后,脚本或其他自动化过程会生成聚合并将它们输入到数据存储中。
    7. 更多时间后,将清除全分辨率数据,只留下聚合数据。
    • 2

相关问题

  • 字段类型在 Kibana/Elasticsearch 中不受欢迎

  • Collectd --> Elasticsearch 如果远程主机无法连接到中央弹性搜索

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    新安装后 postgres 的默认超级用户用户名/密码是什么?

    • 5 个回答
  • Marko Smith

    SFTP 使用什么端口?

    • 6 个回答
  • Marko Smith

    命令行列出 Windows Active Directory 组中的用户?

    • 9 个回答
  • Marko Smith

    什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同?

    • 3 个回答
  • Marko Smith

    如何确定bash变量是否为空?

    • 15 个回答
  • Martin Hope
    Tom Feiner 如何按大小对 du -h 输出进行排序 2009-02-26 05:42:42 +0800 CST
  • Martin Hope
    Noah Goodrich 什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同? 2009-05-19 18:24:42 +0800 CST
  • Martin Hope
    Brent 如何确定bash变量是否为空? 2009-05-13 09:54:48 +0800 CST
  • Martin Hope
    cletus 您如何找到在 Windows 中打开文件的进程? 2009-05-01 16:47:16 +0800 CST

热门标签

linux nginx windows networking ubuntu domain-name-system amazon-web-services active-directory apache-2.4 ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve