关于【metrics】的问题- 第1页

questionto42standswithUkraine

Asked: 2022-04-05 10:18:59 +0800 CST

“字段名称”的下拉菜单不显示在 GCP LBM 菜单“创建日志指标”中记录的 log_struct() 记录的 jsonPayload，尽管日志资源管理器中的日志

0

我需要 Google Cloud Platform 上的度量类型“分布”的 LBM，以便一次性制作具有许多标签的计数或持续时间等值的时间序列图表。

示例：对于数据工作流中的 10 个不同步骤，一天中的计数和持续时间记录在字典中，并使用 gcloud logging 记录为 jsonPayload log_struct()。

虽然我在日志资源管理器中查看一个月时看到记录的事件，但我无法在下拉菜单中选择任何 jsonPayload 项来从中创建所需的基于日志的指标 (LBM)，以便我可以在 Graphana 中选择它们显示图表。

在这个下拉菜单中，我期待我在云函数运行期间记录的键值对，但我无法选择记录的任何内容，我只能看到其他 jsonPayload 系统条目。这就是日志的样子。

旁注：我使用中间分支保存 jsonPayload，因为子项位于下拉列表中的一个中间分支下，例如 jsonPayload.json_metadata.rows_count 而不是 jsonPayload.rows_count。这使得 Python 日志记录的内容更加清晰。我不认为这是一个问题，但你永远不会知道。我在下拉菜单中找不到这个中间分支及其子项，因此我无法制作所需的 LBM。如何获得“字段名称”的完整下拉菜单？

MysteriousPerson

Asked: 2022-01-12 06:40:13 +0800 CST

Kubernetes Nginx 入口控制器指标

3

我试图找到有关 Kubernetes 中 NGINX 入口控制器公开的指标的文档，但到目前为止，我还没有找到任何关于指标及其含义的可靠来源。

例如，有三个不同的request_size指标（sum、bucket、count）。

从我的猜测sum和count相互关联。为了获得平均请求大小，我可能会做类似sum by (method) (request_size_sum{...}) / sum by (method) (request_size_count{...}).

但是bucket，尤其是什么是什么le？

Jakube

Asked: 2021-11-09 07:29:22 +0800 CST

大型自定义 GCP 指标

0

在 GCP 中创建大型自定义指标的最佳方式是什么？

我们正在运行一些计算实例，并希望跟踪一些自定义值，例如算法的质量，并将数据可视化到仪表板中。我们当前的解决方案是编写日志消息，并使用基于日志的指标。这行得通，但它要求我们为每个单个值编写一条日志消息，这听起来有点低效（大量元信息，过滤日志消息，......）并且相当于相当高的日志记录费用。

是否有更好、更有效的方式来管理自定义指标？

我已经看到您可以创建自定义指标，并使用 monitorin API ( https://cloud.google.com/monitoring/custom-metrics/creating-metrics ) 向它们添加新点，但是这些是速率限制的，并且你可以每 10 秒只写一个点，这太少了，你会得到如下错误：

google.api_core.exceptions.InvalidArgument: 400 One or more TimeSeries could not be written: 
One or more points were written more frequently than the maximum sampling period configured for the metric.: timeSeries[0]

Melchy

Asked: 2021-10-17 01:52:59 +0800 CST

GKE 指标代理记录许多错误

2

我们已经创建了 GKE 集群，并且我们从 gke-metrics-agent 收到错误。错误每 cca 30 分钟出现一次。总是相同的 62 个错误。

所有错误都有标签k8s-pod/k8s-app: "gke-metrics-agent"。

第一个错误是：

error   exporterhelper/queued_retry.go:245  Exporting failed. Try enabling retry_on_failure config option.  {"kind": "exporter", "name": "googlecloud", "error": "rpc error: code = DeadlineExceeded desc = Deadline expired before operation could complete."

这个错误后面跟着这些错误的顺序

“go.opentelemetry.io/collector/exporter/exporterhelper.(*retrySender).send”
“/go/src/gke-logmon/gke-metrics-agent/vendor/go.opentelemetry.io/collector/exporter/exporterhelper/queued_retry.go:245”
go.opentelemetry.io/collector/exporter/exporterhelper.(*metricsSenderWithObservability).send
/go/src/gke-logmon/gke-metrics-agent/vendor/go.opentelemetry.io/collector/exporter/exporterhelper/metrics.go:120

有这样的 cca 40 错误。两个突出的错误是：

- error exporterhelper/queued_retry.go:175  Exporting failed. Dropping data. Try enabling sending_queue to survive temporary failures.  {"kind": "exporter", "name": "googlecloud", "dropped_items": 19}"

- warn  batchprocessor/batch_processor.go:184   Sender failed   {"kind": "processor", "name": "batch", "error": "rpc error: code = DeadlineExceeded desc = Deadline expired before operation could complete."}"

我试图在谷歌上搜索这些错误，但我找不到任何东西。我什至找不到 gke-metrics-agent 的任何文档。

我尝试过的事情：

检查配额
将 GKE 更新到更新版本（当前版本为 1.21.3-gke.2001）
更新节点
禁用所有防火墙规则
将所有权限授予 k8s 节点

我可以提供有关我们的 kubernetes 集群的更多信息，但我不知道哪些信息可能对解决这个问题很重要。

haelix

Asked: 2021-05-18 09:39:24 +0800 CST

多宿主：我是否需要 2 个接口的路由指标，其中只有一个可以访问互联网？

0

我有 2 台多宿主服务器，它们除了通过它们的一个 NIC 连接到 Internet 之外，它们还通过它们的第二个 NIC 彼此背靠背连接。

我systemd-networkd用于为 Internet 链接配置 DHCP，并为它们的交叉连接配置链接本地 IP。交叉连接配置文件如下所示：

$ less /etc/systemd/network/25-other.network
[Match]
Name=eth5

[Network]
LinkLocalAddressing=yes

这是可行的，并且服务器在其辅助接口上分别分配了 169.254.245.165/16 之类的 IP。

对路由不是很熟悉，我想知道我是否会因为路由而遇到 Internet 连接问题。内核是否曾经尝试通过辅助接口访问互联网？决定是如何做出的？我知道可以为此使用路由指标，但不确定我是否需要它们（因为两个接口都没有可用的目的地），所以我需要这个吗？

[Network]
Metric=20

或者也许这个？

[Network]
RouteMetric=20

编辑：正如接受的答案所说，没有添加路线一切都很好。发布ip route是否对任何人有帮助的输出。它显示了通过我的路由器的默认路由和通过链接本地 IP 的第二条路由。

default via 192.168.2.1 dev enp111s0 proto dhcp src 192.168.2.11 metric 1024 
169.254.0.0/16 dev enpa1a2 proto kernel scope link src 169.254.2.11

Kyriafinis Vasilis

Asked: 2021-03-20 12:25:56 +0800 CST

网络时间指标

-1

我试图了解不同的网络指标，特别是那些与时间有关的指标。我发现自己迷失在定义中。从我到目前为止所做的研究中，我发现定义中存在一些矛盾，具体取决于来源，但这是我确定的（可能是错误的！！）：

延迟：数据包从客户端到达目的地所需的时间，或者简单地说是旅行时间。
往返时间 (RTT)：请求到达目的地并返回给客户端所需的时间。
响应时间：请求到达目的地得到处理以及处理结果到客户端所需的时间。

所以我的问题是：

RTT 只是 2 倍延迟吗？
RTT和响应时间有什么区别？在我看来，它们是同一回事。
延迟和 RTT 是如何计算的？相对容易衡量的响应时间如何消除处理时间？
最后是上述所有问题的起源。使用 ping 命令时显示的时间是延迟 RTT 还是响应时间？

很抱歉有很多问题，但它们都是相互关联的，所以我觉得我不应该把它们分成多个帖子。

bogumbiker

Asked: 2021-03-16 16:03:57 +0800 CST

如何使用基于日志的指标针对同一事件发送警报

1

在 GCP 上，我们创建了各种基于日志的指标，我们基本上是在寻找带有一些关键字的日志条目，如“错误”、“警告”等......

我们还根据这些指标创建警报。

大多数日志来自类似 cron 的应用程序。

但是，当 GCP 创建事件时，它不允许手动关闭它。根据文件，该事件将在 7 天左右后自行关闭。GCP 仅在事件第一次发生时发送警报。因此，由 cron 生成的后续事件（例如每小时）被视为现有事件并且不会发送警报。

有没有办法配置 GCP 监控和警报以在每次发生相同事件时发送警报？

SolveSoul

Asked: 2020-05-12 00:10:00 +0800 CST

EC2 安全更新的 AWS CloudWatch 指标

1

是否可以创建一个 AWS CloudWatch 指标来跟踪 EC2 (Ubuntu) 实例上未决的安全更新？我们的想法是更快地了解需要安全补丁的 EC2 实例。通过为此创建一个指标，我们可以将其添加到 CloudWatch 仪表板以更快地进行概览，而不是登录并检查每个单独实例的待处理安全补丁。

实例必须安装aws-mon-scripts并已转发磁盘使用率和内存利用率等指标。所以也许这是要走的路？

需要明确的是，所需的指标具体取决于登录 EC2 实例时提示的可用安全补丁的数量。例如：

102 packages can be updated.
7 updates are security updates.

larsks

Asked: 2020-03-03 06:31:44 +0800 CST

prometheus 指标是否具有某种“新鲜度”生命周期？

4

我每 15 分钟抓取一些指标（openstack cinder 卷大小），结果会产生一个不连续的图表，如下所示：

（这是简单查询的结果cinder_volume_size_gb）。

指标“存在”大约五分钟，然后消失，直到下一个抓取间隔。哪些配置设置会影响此行为？

nonely

Asked: 2020-02-07 02:11:29 +0800 CST

Nagios - 在同一服务上检查 procs 和 --metric=elapsed

0

在网上工作和搜索了很多天之后，我将作为最后的帮助机会回复您。我实际上正在使用带有 nrpe 的 nagios core 4.4.3 监视 unix 进程。

我的目标是检查：使用命令“java”的确切 1 个进程从最多 23 小时开始运行，仅使用一项服务

这个过程每天都会重新开始。

低于我在 client_host (/etc/nagios/nrpe.cfg) 上的内容：

command[check_java]=/usr/lib64/nagios/plugins/check_procs  -c 1:1  -C java
command[check_java_elapsed]=/usr/lib64/nagios/plugins/check_procs  -c :82800 --metric=ELAPSED  -C java

在服务器上（/usr/local/nagios/etc/client_host.cfg）：

define service{
          use                     generic-service
          host_name               client_host
          service_description     java_elapsed
          check_command           check_nrpe!check_java
          check_period                    24x7
          max_check_attempts              3
          normal_check_interval           1
          retry_check_interval            2
}
define service{
          use                     generic-service
          host_name               client_host
          service_description     perl_elapsed
          check_command           check_nrpe!check_java_elapsed
          check_period                    24x7
          max_check_attempts              3
          normal_check_interval           1
          retry_check_interval            2
}

总而言之，我想将这两种服务结合在一个服务中

“字段名称”的下拉菜单不显示在 GCP LBM 菜单“创建日志指标”中记录的 log_struct() 记录的 jsonPayload，尽管日志资源管理器中的日志

Kubernetes Nginx 入口控制器指标

大型自定义 GCP 指标

GKE 指标代理记录许多错误

多宿主：我是否需要 2 个接口的路由指标，其中只有一个可以访问互联网？

网络时间指标

如何使用基于日志的指标针对同一事件发送警报

EC2 安全更新的 AWS CloudWatch 指标

prometheus 指标是否具有某种“新鲜度”生命周期？

Nagios - 在同一服务上检查 procs 和 --metric=elapsed

新安装后 postgres 的默认超级用户用户名/密码是什么？

SFTP 使用什么端口？

命令行列出 Windows Active Directory 组中的用户？

什么是 Pem 文件，它与其他 OpenSSL 生成的密钥文件格式有何不同？

如何确定bash变量是否为空？

问题[metrics](server)