多操作系统环境的首选电子邮件客户端

Question

PBH

Asked: 2021-10-26 15:59:13 +0800 CST2021-10-26 15:59:13 +0800 CST 2021-10-26 15:59:13 +0800 CST

在多线程应用程序中同步线程

我在具有 16 核、32 线程 XEON 处理器和 OpenMPI 版本 4.1.1 的 CentOS 8（核心）系统上使用SIESTA dft 包进行所有计算。

因为我有 32 个线程，所以我使用其中的 28 个来进行 SIESTA 计算（这会消耗大量内存 ~60%）并保持剩余的 4 个空闲。
但是，如果我开始将 2 或 3 个剩余线程用于其他应用程序（内存使用量可以忽略不计），同时将 SIESTA 计算保持在 28 个线程，我发现 SIESTA 计算的速度降低了大约 50-60 %。
我检查了 CPU 利用率，发现在场景 2 中使用系统时，一个线程几乎保持空闲状态。

有没有办法诊断和解决这个问题？这是因为某些进程调度错误而发生的吗？可以使用某种流程绑定或作业调度包来改善这一点吗？

John Mahowald · Answer 1 · 2021-10-26T18:43:20+08:00

CPU 利用率作为一个简单的百分比无法传达多核、多线程、多执行单元 CPU 和内存的复杂性。几乎可以肯定CPU 实际上在内存或缓存上停滞不前。拥有数据的进程将争夺执行单元。

这个 CPU 只有 16 个核心。正如您所发现的，将其视为 32 会在某些时候严重降低性能。即使使用 SMT 2。也许您可以将线程数增加到 125% 的内核 (20)，但 175% (28) 正在推动它。尤其是在其他事情运行的情况下。退回线程。

确保计算每线程每秒完成的有用工作。实验，一次改变一个变量。如果您可以访问这些配置，也许可以尝试具有不同缓存和核心计数配置的处理器。

使用性能监控计数器衡量您的停滞程度。无法在 VM 中工作，但值得在 Linux 上尝试。来自我之前链接的 Gregg：

perf stat -a -- sleep 10

Xeons 的理论最高速度是每个周期 4 或 5 条指令。你不会明白，但 < 1.0 IPC 在内存上会额外停滞。

一定要了解应用程序的代码和热点。哪些功能在 CPU 上花费的时间最多？哪些汇编代码受到的打击最大？尤其是 CPU 上的哪些执行单元最努力地处理这些微指令？

火焰图非常适合可视化 CPU 功能。您提到了 EL 8，它具有打包的火焰图工具。

yum install perf js-d3-flame-graph
# system wide, 99 Hz, for 60 seconds
perf script flamegraph -a -F 99 sleep 60

对程序的开发人员级别的理解对于完全解释结果是必要的。使用符号或源代码，性能报告可以在类似调试器的体验中进行注释。