我们拥有一个拥有 12 个左右 dbs 的托管实例,支持跨 2 个客户的相同应用程序。这一直在 4 核 sql 托管实例上运行 find,但在大约 2 周前的当地时间几乎正好午夜,性能大幅下降。这被视为 CPU 过多(当用户在当天早上 6 点开始工作后,CPU 迅速上升到 100%),并且该实例在中午左右迁移到 8 个内核。
在 8 核上,平均 CPU 和峰值 CPU 的 Azure 指标随后稳定在与 4 核实例相同的水平并且保持相似(因此图表在迁移前和迁移后的用户需求下具有相同的形状)。
这表明该服务现在的效率是其 100% cpu 峰值之前的 1/2。
分析表明,目前占主导地位的等待是 SOS_scheduler_yield。同时,我们注意到,我们在查询存储中检查的几乎每个查询都在午夜时点记录了逻辑写入的巨大提升,此时我们看到 CPU 开始出现峰值。
我确实想知道 Paul Randall 关于 VM 过度使用的内容是否相关https://www.sqlskills.com/blogs/paul/increased-sos_scheduler_yield-waits-on-virtual-machines/但是我认为这不符合签名用于增加逻辑写入。
所以这可能是从 10k 写入到 1M+,即 2 个数量级。
我们没有看到长时间运行的查询,没有阻塞 - 系统服务很多短查询..
与大量逻辑写入相对应的是,PLE 已经跌到了最低点——如果幸运的话,现在以分钟为单位进行测量,否则以秒为单位。
OLTP 工作负载(用户需求)与以前相比没有变化,数据量也是如此。
它看起来有点像陈旧的计划,但规模很大——或者好像 sqlserver 决定从查询实现中删除一次优化器路径。
奇怪的是,相同查询的某些计划如何在之前/之后显示逻辑写入不变,但该查询的其他计划显示了这个巨大的峰值,即使计划 id 相同。这不是“一个问题查询”——这种模式显示了我们所看到的几乎所有查询。要么他们有一个单一的计划并且它被飙升,或者他们有一些计划(参数化)并且一些被飙升而其他人没有。我们还没有找到它们的模式。
除了稍微陈旧的统计数据之外,外部 DBA 审查并没有真正发现任何东西(然而,当我们查询陈旧的统计数据时,过去几天更改率高的数据都被刷新了,如果这是他的根本原因,我会有点惊讶在如此广泛的查询中。
它已升级为 MS,但我想我会发布以防其他人经历过类似的事情(逻辑写入突然大幅提升),尤其是在 Azure 上。CPU 图表的读取方式,我们在核心增加之前和之后使用相同的 avg/max CPU 百分比,这几乎是 CPU 消耗的两倍。这让我认为这是影响 sqlserver 的一个因素,但不是直接来自数据库。
感谢您阅读本文和所有有用的建议!
原来这是一个微软补丁引起的问题。在我们的 CPU 过载的那天,我们的 Azure 机器上部署了一个补丁,提高了所有加密磁盘操作的 CPU 需求。这有效地使 CPU 加倍,因此它使我们的 4 个 vcpu 机器超载以及为什么(将内核加倍到 8 个)CPU 负载似乎是事先通常水平的大约两倍。大约 3 周后,情况正好相反。部署了一个补丁,我们报告的 CPU 级别神奇地减半。当然,到了一个月后,其他人调查报道了,我们才发现了根本原因。但是日期完全一致,我们当然看到已经安装了补丁来恢复这种情况。不幸的是,太远了,无法检查补丁历史以了解问题的开始。 https://www.theregister.com/2022/08/09/widows_data_damage/