我想知道 Performance Co-Pilot (PCP) 是否设置为具有 NMS 应用程序的所有功能,即。Nagios 或 Zabbix。我使用它从主机中提取指标并在仪表板上绘制值,但我想知道如何使用它来监控数百台服务器并检测故障。PCP 文件描述了所有的模块和守护进程,但我找不到太多关于如何将它们组合在一起的信息。性能指标推理引擎 (PMIE) 可以评估逻辑表达式并发出警报,或者 PCP 管理器 (pmmgr) 可用于从多个主机收集数据。因此,如果我想使用 PMIE 进行故障检测和警报,它应该在每个受监控的主机上运行还是在中央 NMS 服务器上运行?它是只从 PCP 日志中读取指标,还是可以通过 WebAPI 连接到受监控的主机?如果我想在 InfluxDB 或 ElasticSearch 中存储指标,我应该让导出器(pcp2influxdb 或 pcp2elasticsearch)在受监控的主机上运行,还是先在一个地方收集 PCP 日志并从那里导出?如果 pmmgr 从多个主机收集指标需要每个目标主机有一个 pmlogger 实例,它是否可以在大型环境中的一台服务器上高效工作,即。1000 台受监控的服务器?
一篇文章中有很多问题,但归结为一个问题:PCP 可以是 NMS 吗?
答案是不。PCP 套件包括一些用于绘制以本机日志格式存储的指标的图形工具,但没有其他工具具有管理库存、警报、通知等所需的功能。可以将 PCP 与其他功能齐全的 NMS 应用程序集成包括 Prometheus,因此这是目前将其作为监控系统一部分的唯一方法。