AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / server / 问题 / 1062677
Accepted
Ash
Ash
Asked: 2021-05-06 09:31:03 +0800 CST2021-05-06 09:31:03 +0800 CST 2021-05-06 09:31:03 +0800 CST

Google Kubernetes Engine 上是否禁用了 Pod 资源 API?

  • 772

问题总结:

我们正在使用DCGM Exporter收集有关 GPU 工作负载的指标。在 GKE 上部署时,导出器不会返回有关其他 pod 或容器的 GPU 信息(当它应该返回该信息时)。

该导出器在每个节点上运行一个副本,并查询kubelet 公开的Pod 资源 API以获取所需的数据。似乎在 GKE 上,与其他 kubernetes 发行版相比,此 API 被禁用或配置不同。

问题演示:

我们的测试场景包括部署一个dcgm-exporter在其上运行的单节点集群以及一个cuda-test使用 GPU 资源的单副本部署(在此演示中称为)。

我们通过exporter的/metricsendpoint查询exporter,结果如下。

在 rancher k3s 上运行时v1.20.4+k3s1,container和pod标签包含一个值:

dcgm_sm_clock{gpu="0",UUID="GPU-a2bf9768-0411-f0bb-791c-67d5fec65e2f",device="nvidia0",Hostname="dcgm-exporter-xzpt9",container="cuda-test-main",namespace="default",pod="cuda-test-687bddf45c-qjl6x"} 1860
dcgm_memory_clock{gpu="0",UUID="GPU-a2bf9768-0411-f0bb-791c-67d5fec65e2f",device="nvidia0",Hostname="dcgm-exporter-xzpt9",container="cuda-test-main",namespace="default",pod="cuda-test-687bddf45c-qjl6x"} 9501
dcgm_gpu_temp{gpu="0",UUID="GPU-a2bf9768-0411-f0bb-791c-67d5fec65e2f",device="nvidia0",Hostname="dcgm-exporter-xzpt9",container="cuda-test-main",namespace="default",pod="cuda-test-687bddf45c-qjl6x"} 41

但是在 GKE 上运行时v1.19.8-gke.1600,container和pod标签都有空值:

dcgm_sm_clock{gpu="0",UUID="GPU-bcb71627-8b00-b4aa-70d7-ce39fd6cbb01",device="nvidia0",Hostname="dcgm-exporter-ln6x4",container="",namespace="",pod=""} 585
dcgm_memory_clock{gpu="0",UUID="GPU-bcb71627-8b00-b4aa-70d7-ce39fd6cbb01",device="nvidia0",Hostname="dcgm-exporter-ln6x4",container="",namespace="",pod=""} 5000
dcgm_gpu_temp{gpu="0",UUID="GPU-bcb71627-8b00-b4aa-70d7-ce39fd6cbb01",device="nvidia0",Hostname="dcgm-exporter-ln6x4",container="",namespace="",pod=""} 76

我无法找到有关 GKE 是否禁用此 API(在 k8s 中引入1.13)或限制某些值被公开的任何信息。我想了解有关此事的更多信息并找到解决方案,以便出口商访问和收集信息。

monitoring kubernetes google-kubernetes-engine nvidia
  • 1 1 个回答
  • 49 Views

1 个回答

  • Voted
  1. Best Answer
    Ash
    2021-05-07T10:07:53+08:002021-05-07T10:07:53+08:00

    似乎将参数添加--kubernetes-gpu-id-type device-name到了dcgm-exporter它。

    显然,在 GKE 上,pod 资源 API 不会返回 GPU 的值uid(这是参数的默认值),这就是跳过有关 pod 和容器的信息的原因。

    • 0

相关问题

  • 如何监控系统在哪里写/读磁盘?[关闭]

  • 如何监控 SAN 服务器(通过 iSCSI)?

  • 共享点管理?

  • 安全地授予对 SQL 2005 复制监视器的访问权限以创建快照

  • SNMP HOSTMIB.MIB 未加载?

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    新安装后 postgres 的默认超级用户用户名/密码是什么?

    • 5 个回答
  • Marko Smith

    SFTP 使用什么端口?

    • 6 个回答
  • Marko Smith

    命令行列出 Windows Active Directory 组中的用户?

    • 9 个回答
  • Marko Smith

    什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同?

    • 3 个回答
  • Marko Smith

    如何确定bash变量是否为空?

    • 15 个回答
  • Martin Hope
    Tom Feiner 如何按大小对 du -h 输出进行排序 2009-02-26 05:42:42 +0800 CST
  • Martin Hope
    Noah Goodrich 什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同? 2009-05-19 18:24:42 +0800 CST
  • Martin Hope
    Brent 如何确定bash变量是否为空? 2009-05-13 09:54:48 +0800 CST
  • Martin Hope
    cletus 您如何找到在 Windows 中打开文件的进程? 2009-05-01 16:47:16 +0800 CST

热门标签

linux nginx windows networking ubuntu domain-name-system amazon-web-services active-directory apache-2.4 ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve