环境是 SQL 2008 R2、26GB RAM、4 核 Xeon E5-2650 @ 2.6GHz。
请看下图,我们的维护计划重组了索引(不是重建)。这是每周运行一次,在一周内,这个计划从大约 5 分钟增加到 1 小时 - 1 小时 15 秒,此后一直没有改进。我们不得不禁用此计划并以另一种方式解决此问题。我查看了数据库中的数据量,发现它没有增长到足以导致此问题的程度。
我一直在与我们的托管公司联系,看看我们的环境是否有任何变化,但他们说什么都没有改变,我们的虚拟机没有任何限制/限制,IO 似乎没问题。我们也没有对底层应用程序进行任何更改。
据我所知,本周内其他事情也开始失败 - 一些运行良好的查询开始超时。对于可能导致这种情况的原因,我有点不知所措,并且不确定如何追溯发现。谁能指出我从哪里开始发现这里可能出了什么问题的方向?
您提出的问题是一个非常普遍的问题,使用数据库的人一直都面临着这个挑战。没有任何一件事可以立即给您答案。由于您的数据库由第三方托管,因此您的案件比其他案件更困难。
对长时间运行的过程进行故障排除既是一门科学,也是一门艺术。每个人都有自己的方式,并不是独一无二的。
首先,您要确保您的重组过程仍在做同样的工作。在这种情况下这并不容易,因为几个因素:
一旦你检查出来并确信工作量是相同的,你可以使用称为“等待和队列”的方法来找出持续时间增加的原因?
SQL 服务器进程可以处于三种状态。正在运行、可运行和已暂停。我建议您在这里阅读更多内容。有一种很好的方法可以捕获单个操作的等待统计信息。
一旦您知道您的进程在等待什么资源以及等待了多长时间(在整个持续时间内),您应该能够量化运行时间。您可能会被阻止,但在这之下也是等待,因为其他一些进程正在持有您需要的资源。
当您处于托管环境中时,如果您有硬件的基线编号,您也应该检查它们,以确保那里没有任何变化。我知道您确实与他们核实过,但我建议您确认他们所说的内容。
几件事情要检查: