AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / server / 问题

问题[monitoring](server)

Martin Hope
Steven Blyatman Chayka
Asked: 2024-01-09 18:44:15 +0800 CST

神秘的“无法找到可执行文件”

  • 5

在这篇文章之后,我一直在使用 Promtail、Loki 和 Grafana 为各种服务器设置监控解决方案。我有一台运行 Loki 和 Grafana(在 Rocky Linux 9.3 上)的监控机器和一堆运行 Promtail 的 Ubuntu 服务器,它将日志铲入 Loki。效果很好。

然而,我想做的最后一步是为监控机器设置 Promtail。我按照上面的步骤操作 - 这些步骤在大约 20 台服务器上有效 - 突然间,我不断收到“无法找到可执行文件”的消息:

[root@localhost ~]# systemctl status promtail.service
× promtail.service - Promtail for Loki
     Loaded: loaded (/etc/systemd/system/promtail.service; enabled; preset: disabled)
     Active: failed (Result: exit-code) since Tue 2024-01-09 05:21:23 EST; 5s ago
   Duration: 22ms
    Process: 3633351 ExecStart=/usr/local/bin/promtail-linux-amd64 -config.file /etc/loki/promtail.yaml (code=exited, status=203/EXEC)
   Main PID: 3633351 (code=exited, status=203/EXEC)
        CPU: 21ms

Jan 09 05:21:23 localhost.localdomain systemd[1]: Started Promtail for Loki.
Jan 09 05:21:23 localhost.localdomain systemd[3633351]: promtail.service: Failed to locate executable /usr/local/bin/promtail-linux-amd64: Permission denied
Jan 09 05:21:23 localhost.localdomain systemd[3633351]: promtail.service: Failed at step EXEC spawning /usr/local/bin/promtail-linux-amd64: Permission denied
Jan 09 05:21:23 localhost.localdomain systemd[1]: promtail.service: Main process exited, code=exited, status=203/EXEC
Jan 09 05:21:23 localhost.localdomain systemd[1]: promtail.service: Failed with result 'exit-code'.

但可执行文件位于正确的位置,并且所有者是 promtail 用户:

[root@localhost ~]# ls -al /usr/local/bin/
total 165048
drwxr-xr-x+  3 root     root          128 Jan  2 12:35 .
drwxr-xr-x. 12 root     root          131 May 30  2023 ..
-rwxr-xr-x+  1 loki     loki     59424768 May  3  2023 loki-linux-amd64
-rw-r--r--+  1 root     root     18930096 May 31  2023 loki-linux-amd64.zip
-rwxr-xr-x.  1 root     root          233 Nov  6 11:53 normalizer
-rwxrwxr--+  1 promtail promtail 90640576 May  3  2023 promtail-linux-amd64
drwxr-xr-x.  7 root     root         4096 Jan  4 06:47 server_heartbeat

ACL 看起来像这样:

[root@localhost ~]# getfacl /usr/local/bin/promtail-linux-amd64 
getfacl: Removing leading '/' from absolute path names
# file: usr/local/bin/promtail-linux-amd64
# owner: promtail
# group: promtail
user::rwx
group::r-x
other::r--

服务文件指定 promtail 作为用户:

[Unit]

Description=Promtail for Loki

After=network.target

[Service]

Type=simple

User=promtail

ExecStart=/usr/local/bin/promtail-linux-amd64 -config.file /etc/loki/promtail.yaml

Restart=on-abort

NoNewPrivileges=true

PrivateTmp=yes

RestrictNamespaces=uts ipc pid user cgroup

ProtectKernelTunables=yes

ProtectKernelModules=yes

ProtectControlGroups=yes

#ProtectSystem=strict

#PrivateUsers=strict

#CapabilityBoundingSet=CAP_NET_BIND_SERVICE CAP_DAC_READ_SEARCH

[Install]

WantedBy=multi-user.target

我缺少什么?

编辑:根据 @gerald-schneider 的评论,相关的 SELinux 上下文如下所示:

[root@localhost ~]# ls -Z /usr/local/bin/promtail-linux-amd64 
unconfined_u:object_r:admin_home_t:s0 /usr/local/bin/promtail-linux-amd64

[root@localhost ~]# ls -Z /etc/loki/promtail.yaml 
unconfined_u:object_r:admin_home_t:s0 /etc/loki/promtail.yaml

[root@localhost ~]# ls -Z /tmp/positions.yaml 
unconfined_u:object_r:user_tmp_t:s0 /tmp/positions.yaml
monitoring
  • 1 个回答
  • 65 Views
Martin Hope
DesignerJT
Asked: 2023-09-16 17:42:53 +0800 CST

命令未在 Nagios 中运行

  • 5

谁能帮我解释一下为什么当我将以下代码放入自定义 Nagios 命令的 command_line 中时,它没有运行?当我在终端中运行它时它起作用。

command_name     notify-host-by-sms
commnad_line     echo -e "AT+CMGS="$CONTACTPAGER$"\r" | socat -t3 - TCP:XXX.XXX.XXX.XXX:10002 && echo -e "$HOSTNAME$ $HOSTSTATE$ $HOSTADDRESS$ $LONGDATETIME$\x1A" | socat - TCP:XXX.XXX.XXX.XXX:10002
monitoring
  • 1 个回答
  • 37 Views
Martin Hope
Newskooler
Asked: 2023-02-07 00:30:15 +0800 CST

如何监控systemd?

  • 5

我正在寻找一种监视系统服务的方法:诸如它们是否正在运行之类的基本事物是一个好的开始(其他任何事情都是额外的好处)。

我尝试使用 node_exporter,但由于我正在无根运行所有服务(systemctl --user),所以我没有看到它们被捕获。

我的问题是:我如何通过以非 root 用户身份运行 systemd 服务来监视所有 systemd 服务的状态?

monitoring
  • 1 个回答
  • 37 Views
Martin Hope
Raul Chiarella
Asked: 2022-04-06 07:03:04 +0800 CST

如何使用 SmartCTL 从 RAID 获取硬盘状态以进行监控?

  • 1

我有一个运行 3 个硬盘的 RAID 的 FreeBSD。我面临监控其 RAID 的挑战 - 如果硬盘出现故障或出现一些我需要知道的问题。

所以,我现在做的第一件事是尝试了解 SmartCTL 的工作原理……我目前使用的命令是:

smartctl --scan -j - To scan my devices and generated a JSON Structured list.
smartctl -i /dev/device_name - To list informations about a single device
smartctl -a /dev/your-device - More information like errors and etc (I think i can use this in some way to grep only errors sections...)

SmartCTL 是否还有其他参数可以检查磁盘是否可写、是否处于活动状态以及其健康状态是否正常?

这个理解的主要目的是主要使用 SmartCTL 来生成数据,这些数据将用于 pfSense RAID Monitoring with Low Level Discovery for Zabbix Monitoring Software 的模板中......

任何帮助都将不胜感激。

hard-drive monitoring freebsd pfsense zabbix
  • 1 个回答
  • 398 Views
Martin Hope
Patrick
Asked: 2022-02-18 02:30:09 +0800 CST

调试 Prometheus Blackbox Exporter http_2xx probs

  • 0

我们正在使用 Prometheus Blackbox Exporter(blackbox_exporter,版本 0.19.0)来检查 HTTP 端点。
现在我们需要使用fail_if_body_matches_regexp.
当 html 正文中存在某个单词时,检查应该失败。
为此,我们创建了以下 http prob 配置:

Module configuration:
prober: http
timeout: 5s
http:
    valid_http_versions:
        - HTTP/1.1
        - HTTP/2
        - HTTP/2.0
    preferred_ip_protocol: ip4
    ip_protocol_fallback: true
    fail_if_body_matches_regexp:
        - The page is temporarily unavailable
    follow_redirects: true
tcp:
    ip_protocol_fallback: true
icmp:
    ip_protocol_fallback: true
dns:
    ip_protocol_fallback: true

不幸的是,检查没有按预期工作。即使网站包含The page is temporarily unavailable在 html 正文中,检查仍然成功。

Logs for the probe:
ts=2022-02-17T09:46:31.403831228Z caller=main.go:320 module=http_2xx target=https://site.local level=info msg="Beginning probe" probe=http timeout_seconds=5
ts=2022-02-17T09:46:31.403959629Z caller=http.go:335 module=http_2xx target=https://site.local level=info msg="Resolving target address" ip_protocol=ip4
ts=2022-02-17T09:46:31.500911613Z caller=http.go:335 module=http_2xx target=https://site.local level=info msg="Resolved target address" ip=XXX.XXX.XXX.XXX
ts=2022-02-17T09:46:31.501017313Z caller=client.go:251 module=http_2xx target=https://site.local level=info msg="Making HTTP request" url=https://XXX.XXX.XXX.XXX host=site.local
ts=2022-02-17T09:46:31.614236162Z caller=main.go:130 module=http_2xx target=https://site.local level=info msg="Received HTTP response" status_code=200

Metrics that would have been returned:
# HELP probe_failed_due_to_regex Indicates if probe failed due to regex
# TYPE probe_failed_due_to_regex gauge
probe_failed_due_to_regex 0

要检查网站是否在 Prometheus Blackbox Exporter 中正确加载,我想检查测试期间收到的 html 正文。有谁知道这是否可能并且可能有一些进一步的调试提示?

monitoring prometheus
  • 1 个回答
  • 635 Views
Martin Hope
Insight Habor
Asked: 2022-01-26 01:39:52 +0800 CST

Google Cloud 上可能的公开资产类型

  • 1

保护云环境的方法之一是监控我们拥有的所有资产。最近,我编写了一个脚本来使用 GCP API 获取有关这些资产的信息,但是我需要为每个资产逐一执行,通过使用describe命令来确定它是否是公共的。

您知道 Google Cloud 上可以公开访问的资产类型吗?我找到了一些,但我想确保我涵盖了所有可以公开的资产类型。

这是我发现的:

  1. 桶
  2. 实例
  3. 防火墙
  4. 转发规则
  5. 后端服务
  6. 簇
  7. 贮存

还有什么我错过的吗?或者有没有办法在 GCP 上获取有关公共资产的所有信息?

monitoring cloud-computing google-cloud-platform
  • 1 个回答
  • 62 Views
Martin Hope
JK Laiho
Asked: 2021-10-27 04:51:18 +0800 CST

用于负载测试期间按需性能监控的轻量级 Linux 工具?

  • 0

我的任务是在几个 Tomcat 测试服务器上测试 ProxySQL,将其性能和资源利用率与当前的 Apache DBCP 连接池进行比较。我有一个粗略的负载测试计划,但我在监控和收集/比较系统级性能指标(CPU、内存、磁盘、网络等)方面的经验几乎为零

我的负载测试将涉及一个 Ansible 剧本,它执行各种准备任务,触发负载测试脚本,最后自行清理。我想添加“分别在负载测试之前和之后开始和停止收集性能指标”,但我不知道应该研究哪些工具。

在我看来,最佳解决方案如下所示:

  • 在 Tomcat 盒子的后台本地运行
  • 简单配置
  • 监控会话可以按需启动和停止
  • 高分辨率(如果需要,每秒收集一次甚至更频繁的指标)
  • 监控运行的结果很容易读入某种图形工具,用于比较不同的负载测试运行。

鉴于这些规格,我正在寻找什么样的选项,无论是监控任务本身还是用于检查它们的图形工具?

linux monitoring load-testing
  • 3 个回答
  • 79 Views
Martin Hope
k.Cyborg
Asked: 2021-08-28 15:27:30 +0800 CST

华为 S5600 主要 OID?

  • 0

我正在使用 NagiosCore 检查我的网络交换机(主要是 S5700(模块化和非模块化)和 S5600)的统计信息。使用 SNMP (v2c) 我可以获取自己定义的内容,例如:DeviceName、Location、Contact和我当前正在使用的 ifaces (端口)的描述,以及那些提到的状态(up/down)脸。

现在我还想检查CPU_usage、MEM_usage、Temperature、PowerSupply_Status和Bandwith_usage。我可以snmpget使用从Huawei Infoweb获得的 OID但仅针对 S5700,我无法在该网站(或任何其他网站)中找到与 S5600 的 OID 相关的任何信息,我不知道 S5600 是否已停产或什么,但它没有显示在任何华为 Infoweb 网站上......

S5600 没有出现在华为 Infoweb 中

太好了...我想知道与以下相关的 S5600 的 OID:

  • CPU使用率
  • MEM_usage
  • 温度
  • PowerSupply_Status
  • Bandwith_usage

提前致谢

monitoring snmp network-monitoring
  • 1 个回答
  • 114 Views
Martin Hope
slightly_toasted
Asked: 2021-07-30 05:14:43 +0800 CST

如何监视文件/文件夹何时移动以及移动到何处?

  • 1

我正在寻找一种方法来监视文件/文件夹何时被移动,以及它被移动到哪里。

到目前为止,在我的研究中,我遇到过诸如auditd、watch和inotify. 虽然这些工具非常适合监控文件何时移动,但它们不会跟踪文件移动到的位置。

我还查看了移动文件时生成的系统日志,但读取/解析它们很痛苦。

是否有任何工具可以执行此功能?还是我应该开始编写自己的脚本?

linux filesystems monitoring
  • 1 个回答
  • 526 Views
Martin Hope
Toby 1 Kenobi
Asked: 2021-05-06 23:14:54 +0800 CST

Prometheus 未连接到 GKE 中的警报管理器

  • 1

我使用 helm(在“monitoring”命名空间中)将 kube-prometheus-stack 15.3.1 安装到 GKE 集群中。我使用values.yaml来打开某些组件的入口,并将 SMTP 信息和接收者详细信息添加到警报管理器中。在大多数情况下,一切似乎都很好,除了 Prometheus 发出了许多警报,而且我没有收到任何警报电子邮件。

一个触发警报是:

PrometheusNotConnectedToAlertmanagers

Prometheus 监控/prometheus-kube-prometheus-stak-prometheus-0 没有连接到任何Alertmanagers

另一个是:

PrometheusOperatorSyncFailed

监控命名空间中的控制器警报管理器无法协调 1 个对象。

我还尝试打开警报管理器的入口并指向alerts.mydomiain.com它,但是当我尝试任何 GET 请求(例如alerts.mydomain.com/v2/status)时,我总是会收到 502 服务器错误。

我需要做什么才能让我的 alertmanager 正常工作?

这是输出kubectl get pods,svc,daemonset,deployment,statefulset -n monitoring:

NAME                                                            READY   STATUS    RESTARTS   AGE
pod/kube-prometheus-stack-grafana-58f7fcb497-hm72h              2/2     Running   0          30h
pod/kube-prometheus-stack-kube-state-metrics-6d588499f5-d957b   1/1     Running   0          2d3h
pod/kube-prometheus-stack-operator-54f89674c9-k8ml7             1/1     Running   0          2d3h
pod/kube-prometheus-stack-prometheus-node-exporter-22vpd        1/1     Running   0          3h57m
pod/kube-prometheus-stack-prometheus-node-exporter-2qsl9        1/1     Running   0          3h57m
pod/kube-prometheus-stack-prometheus-node-exporter-4d27n        1/1     Running   0          7h36m
pod/kube-prometheus-stack-prometheus-node-exporter-7rlnk        1/1     Running   0          4h47m
pod/kube-prometheus-stack-prometheus-node-exporter-7xlf4        1/1     Running   0          4h51m
pod/kube-prometheus-stack-prometheus-node-exporter-9mfnt        1/1     Running   0          3h57m
pod/kube-prometheus-stack-prometheus-node-exporter-9zblf        1/1     Running   0          2d3h
pod/kube-prometheus-stack-prometheus-node-exporter-bdcjj        1/1     Running   0          2d3h
pod/kube-prometheus-stack-prometheus-node-exporter-bs54w        1/1     Running   0          4h47m
pod/kube-prometheus-stack-prometheus-node-exporter-fp95h        1/1     Running   0          2d3h
pod/kube-prometheus-stack-prometheus-node-exporter-h4zhw        1/1     Running   0          2d3h
pod/kube-prometheus-stack-prometheus-node-exporter-pz8js        1/1     Running   0          3h58m
pod/kube-prometheus-stack-prometheus-node-exporter-rrrhk        1/1     Running   0          27h
pod/kube-prometheus-stack-prometheus-node-exporter-rszlt        1/1     Running   0          2d3h
pod/kube-prometheus-stack-prometheus-node-exporter-s62wq        1/1     Running   0          4h47m
pod/kube-prometheus-stack-prometheus-node-exporter-w9dmb        1/1     Running   0          5h32m
pod/kube-prometheus-stack-prometheus-node-exporter-xqmxk        1/1     Running   0          4h51m
pod/prometheus-kube-prometheus-stack-prometheus-0               2/2     Running   1          30h

NAME                                                     TYPE        CLUSTER-IP      EXTERNAL-IP   PORT(S)          AGE
service/kube-prometheus-stack-alertmanager               NodePort    10.125.4.161    <none>        9093:30903/TCP   2d3h
service/kube-prometheus-stack-grafana                    NodePort    10.125.7.177    <none>        80:32444/TCP     2d3h
service/kube-prometheus-stack-kube-state-metrics         ClusterIP   10.125.2.56     <none>        8080/TCP         2d3h
service/kube-prometheus-stack-operator                   ClusterIP   10.125.4.171    <none>        443/TCP          2d3h
service/kube-prometheus-stack-prometheus                 NodePort    10.125.13.11    <none>        9090:30090/TCP   2d3h
service/kube-prometheus-stack-prometheus-node-exporter   ClusterIP   10.125.10.231   <none>        9100/TCP         2d3h
service/prometheus-operated                              ClusterIP   None            <none>        9090/TCP         2d3h

NAME                                                            DESIRED   CURRENT   READY   UP-TO-DATE   AVAILABLE   NODE SELECTOR   AGE
daemonset.apps/kube-prometheus-stack-prometheus-node-exporter   17        17        17      17           17          <none>          2d3h

NAME                                                       READY   UP-TO-DATE   AVAILABLE   AGE
deployment.apps/kube-prometheus-stack-grafana              1/1     1            1           2d3h
deployment.apps/kube-prometheus-stack-kube-state-metrics   1/1     1            1           2d3h
deployment.apps/kube-prometheus-stack-operator             1/1     1            1           2d3h

NAME                                                           READY   AGE
statefulset.apps/prometheus-kube-prometheus-stack-prometheus   1/1     42h
monitoring prometheus kubernetes google-kubernetes-engine
  • 2 个回答
  • 1082 Views

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    新安装后 postgres 的默认超级用户用户名/密码是什么?

    • 5 个回答
  • Marko Smith

    SFTP 使用什么端口?

    • 6 个回答
  • Marko Smith

    命令行列出 Windows Active Directory 组中的用户?

    • 9 个回答
  • Marko Smith

    什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同?

    • 3 个回答
  • Marko Smith

    如何确定bash变量是否为空?

    • 15 个回答
  • Martin Hope
    Tom Feiner 如何按大小对 du -h 输出进行排序 2009-02-26 05:42:42 +0800 CST
  • Martin Hope
    Noah Goodrich 什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同? 2009-05-19 18:24:42 +0800 CST
  • Martin Hope
    Brent 如何确定bash变量是否为空? 2009-05-13 09:54:48 +0800 CST
  • Martin Hope
    cletus 您如何找到在 Windows 中打开文件的进程? 2009-05-01 16:47:16 +0800 CST

热门标签

linux nginx windows networking ubuntu domain-name-system amazon-web-services active-directory apache-2.4 ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve