AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / server / 问题 / 1139778
Accepted
Toparvion
Toparvion
Asked: 2023-07-29 17:51:13 +0800 CST2023-07-29 17:51:13 +0800 CST 2023-07-29 17:51:13 +0800 CST

在 Java 线程上触发时解释 OOM 杀手日志

  • 772

当 Linux OOM Killer 中断进程时,内核日志通常会提供有关罪魁祸首的内存消耗的足够信息(即使它最终没有被杀死)。例如,当snmpd进程成为 OOM 触发器时,稍后可以通过以下方式在日志中找到其内存状态PID=1190:

Jul 18 02:21:26 inm-agg kernel: snmpd invoked oom-killer: gfp_mask=0x100cca(GFP_HIGHUSER_MOVABLE), order=0, oom_score_adj=0
Jul 18 02:21:26 inm-agg kernel: CPU: 3 PID: 1190 Comm: snmpd Kdump: loaded Not tainted 5.4.17-2102.201.3.el8uek.x86_64 #2
...
Jul 18 02:21:26 inm-agg kernel: Tasks state (memory values in pages):
Jul 18 02:21:26 inm-agg kernel: [  pid  ]   uid  tgid total_vm      rss pgtables_bytes swapents oom_score_adj name
...
Jul 18 02:21:26 inm-agg kernel: [   1190]     0  1190    78491     1761   217088        0             0 snmpd

然而,当同样的情况发生在 Java 应用程序的线程上时(OpenJDK 64-Bit Server VM (build 25.372-b07, mixed mode)在我的例子中),日志包含一个与任何进程都不对应的PID 。例如,在以下日志中,Apache Cassandra 的输入处理线程ReadStage-150已成为 OOM 触发器:

Jul 16 22:01:45 inm-agg kernel: ReadStage-150 invoked oom-killer: gfp_mask=0x100dca(GFP_HIGHUSER_MOVABLE|__GFP_ZERO), order=0, oom_score_adj=0
Jul 16 22:01:45 inm-agg kernel: CPU: 11 PID: 1653163 Comm: ReadStage-150 Kdump: loaded Not tainted 5.4.17-2102.201.3.el8uek.x86_64 #2

但PID=1653163消息中指定的内容没有在其他地方提到:

$ journalctl -k -b -e | grep "1653163" | wc -l
1

它与 Java 进程 PID 本身没有任何共同点(1652432):

Jul 16 22:01:45 inm-agg kernel: Tasks state (memory values in pages):
Jul 16 22:01:45 inm-agg kernel: [  pid  ]   uid  tgid total_vm      rss pgtables_bytes swapents oom_score_adj name
…
Jul 16 22:01:45 inm-agg kernel: [1652432]     0 1652432  7256008  5839621 49709056        0             0 java

所以我想知道:

  1. oom-killer消息的PID来自哪里?
  2. 在这种情况下,为什么线程与其托管 JVM 进程分开处理?
  3. 如果将 oom-killer 配置为杀死 OOM 发起者,是否有可能(至少在理论上)仅中断罪魁祸首线程而不是整个 JVM?
pid
  • 1 1 个回答
  • 31 Views

1 个回答

  • Voted
  1. Best Answer
    John Mahowald
    2023-07-30T12:32:09+08:002023-07-30T12:32:09+08:00

    Linux 内核所称的 PID 又名任务,严格来说并不等于 ps 或 top 所称的 PID。内核 PID 具有标识“重量级”进程的任务组 ID (TGID)。重是指在某些多线程程序中,多个 PID 共享 TGID 和内存。因此,在某些性能监控工具中可以看到java进程使用超过100%的CPU。

    开头的“invoked oom-killer”标题行显示了 CPU 上的不幸任务,以及到该点的堆栈。这可能不是 OOM 的“归咎”任务,并且如果未设置 sysctl oom_kill_allocing_task,它也可能不会被终止。但它可能只是做了内存分配。

    “任务状态”列表(如果通过 sysctl 启用):

    转储所有符合条件的任务的当前内存状态。不显示不在同一个 memcg 中、不在同一个 cpuset 中或绑定到不相交的 mempolicy 节点集的任务。

    换句话说,这是尽力列出系统上可能被终止的进程。注意“tgid”是一列,用于帮助跟踪多线程线程组。启用 cgroup 后,例如使用 systemd 包含单元时,这个列表比整个系统要短得多。

    内核对任务“坏度”进行非常基本的猜测,主要基于该任务与总系统内存页的比率。任何“杀死进程”消息都会显示受害者任务的详细信息,通过 SIGKILL 强制终止。该信号意味着整个线程组被终止。

    这些任务都没有被证明是“罪魁祸首”。这仅仅是内核可以轻松向您显示的内容:CPU 上的内容、为方便起见还有一些带有 TGID 的任务,以及杀死具有相对大量页面的内容可能会拯救系统。


    意识到内存不足是一种可怕的情况。系统正在考虑程序崩溃并可能导致数据丢失。没有太多发挥聪明才智的空间。

    如果有的话,您的努力和聪明应该用于改进您的容量规划。了解这些服务如何在服务管理器和容器中包含内存。按 cgroup 和系统范围观察内存消耗。提出一个内存大小调整算法,无论多少GB用于服务,一点用于内核和管理,以及一些百分之几的安全裕度。进行调整,直到不再被 OOM 杀死。

    • 1

相关问题

  • Systemd 插件无法创建 PID 文件

  • 如何在 Debian8 上获取 su 屏幕 PID?

  • 进程每秒更改一次 PID

  • 如何识别一个进程是唯一的还是巧合的相同PID?

  • 如何在 MacOS 中从 PID 获取进程文件名?

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    新安装后 postgres 的默认超级用户用户名/密码是什么?

    • 5 个回答
  • Marko Smith

    SFTP 使用什么端口?

    • 6 个回答
  • Marko Smith

    命令行列出 Windows Active Directory 组中的用户?

    • 9 个回答
  • Marko Smith

    什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同?

    • 3 个回答
  • Marko Smith

    如何确定bash变量是否为空?

    • 15 个回答
  • Martin Hope
    Tom Feiner 如何按大小对 du -h 输出进行排序 2009-02-26 05:42:42 +0800 CST
  • Martin Hope
    Noah Goodrich 什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同? 2009-05-19 18:24:42 +0800 CST
  • Martin Hope
    Brent 如何确定bash变量是否为空? 2009-05-13 09:54:48 +0800 CST
  • Martin Hope
    cletus 您如何找到在 Windows 中打开文件的进程? 2009-05-01 16:47:16 +0800 CST

热门标签

linux nginx windows networking ubuntu domain-name-system amazon-web-services active-directory apache-2.4 ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve