SQL Server - 使用聚集索引时如何存储数据页

Question

Daniel Bragg

Asked: 2021-12-21 15:38:05 +0800 CST2021-12-21 15:38:05 +0800 CST 2021-12-21 15:38:05 +0800 CST

实际行和估计行差异很大

772

在执行计划之前（因为我正在调试一个运行不佳的计划）我有这个变量分配块：

DECLARE @Days INT = 180
DECLARE @DateRangeFrom DateTime = DATEADD(d, -@Days, getDate())
DECLARE @DateRangeTo DateTime = getDate()
DECLARE @FacilityID INT = 1010
DECLARE @Answer0 INT = 1879
DECLARE @Answer1 INT = 1949
DECLARE @Answer1SetID INT = 1607
DECLARE @Answer2 INT = 1907
DECLARE @Answer2SetID INT = 1593

我的第一个问题是我在 IRItemAnswer_Info 表（节点 ID 19）上执行的查找。它溢出到 Tempdb，它已经开始错误地开始查询。它引用了IRItemAnswerInfo_DGItemID_AnswerSourceID索引，这是正确的索引，因为我在DGItemIDand上匹配AnswerSourceID，然后返回IncidentID。索引创建为

CREATE NONCLUSTERED INDEX IRItemAnswerInfo_DGItemID_AnswerSourceID
ON dbo.IRItemAnswer_Info (DGItemID, AnswerSourceID) 
INCLUDE([IncidentID], [AnswerBoolean])

但是，查询的估计行数为 53,459，实际行数为 969,812。

我刚刚完成了强制新的统计数据UPDATE STATISTICS IRItemAnswer_Info IRItemAnswerInfo_DGItemID_AnswerSourceID WITH FULLSCAN，它没有任何区别。

DBCC SHOW_STATISTICS ('IRItemAnswer_Info', 'DGItemID')因为DGItemID=1949有EQ_ROWSas1,063,536和

DBCC SHOW_STATISTICS ('IRItemAnswer_Info', 'AnswerSourceID')因为AnswerSourceID=1607有EQ_ROWS_970,079

数据库正在运行兼容级别 140 (SQL Server 2017)。我们将运行 2019 年，但在执行此操作之前，我们需要在存储过程中纠正一些问题。

我接下来要看什么？

我选择了性能最差的输出，这是最常见的值。 IRItemAnswer_Info是一个包含用户定义的与事件相关联的答案的表格，其中DGItemID=1949是最常见的问题之一（几乎每个事件都有一个），而AnswerSourceID=1607最常见的答案是哪里。鉴于它们之间存在很强的相关性，我应该如何重新排序查询？

由于有点混乱，INNER JOIN同一张表有两个 s，IRItemAnswer_Info。一个是我正在寻找的答案（由问题iria.DGItemID=1879及其输出iria.AnswerSourceID链接确定irai.AltLabel），第二个是一个限制因素。我只想要问题iiai1.DGItemID=1949作为答案的记录iiai1.AnswerSourceID=1607。

我已经明确地从缓存中删除了计划（使用DBCC FREEPROCCACHE）并重新运行它，结果没有变化 - 哈希匹配仍在溢出。

5 个回答

Voted

Paul White · Answer 1 · 2021-12-22T14:10:54+08:00

正如相关问答中所讨论的，SQL Server 如何知道谓词是相关的？SQL Server 默认假定谓词是完全独立的。

它仅在单个前导列上具有详细的统计信息（直方图），即使在使用多列索引或统计信息的情况下也是如此。那么问题是如何组合来自两个独立谓词的两个统计直方图。

例如，假设您有一个带有的查询WHERE c1 = x AND c2 = y。根据直方图信息计算出的选择性为c1 = x0.2。c2 = y从单独的直方图中计算出的选择性为0.1。

两个谓词在一起的选择性是什么？0.2? 0.1? 0.2 x 0.1？中间某个地方？

如果没有特定的附加信息，SQL Server 必须做出有根据的猜测。最初的默认设置是假设完全独立。较新的基数估计框架使用指数退避（“介于两者之间”选项）。

您的情况略有不同，因为您对多列索引中的列进行了两次相等测试，该索引带有多列统计信息。这些并不像听起来那么宏伟。我们仍然只得到前列的直方图，但统计对象确实包含多列的平均密度信息。

例如，(a,b,c) 上的索引将提供 (a)、(a,b) 和 (a,b,c) 的密度信息。这个频率信息确实捕捉到了一些关于相关性的信息，但它在每个级别都是一个数字。这意味着在给定相同数量的列的情况下，基于频率的估计将始终产生相同的估计。

SQL Server 确实从多列频率信息中生成选择性估计，但它也从各个列直方图（如果可用）计算选择性。直方图估计假设独立，并且不使用指数退避。

如果它比基于频率的估计具有更高的选择性，则服务器选择基于直方图的估计。在您的示例中似乎就是这种情况。

Plan for computation:

  CSelCalcPointPredsFreqBased
      Distinct value calculation:
          CDVCPlanLeaf
              1 Multi-Column Stats, 0 Single-Column Stats, 0 Guesses

      Individual selectivity calculations:
          CSelCalcColumnInInterval
              Column: QCOL: [IIAI].DGItemID

          CSelCalcColumnInInterval
              Column: QCOL: [IIAI].AnswerSourceID

Loaded histogram for column QCOL: [IIAI].DGItemID from stats with id 2
Loaded histogram for column QCOL: [IIAI].AnswerSourceID from stats with id 3

Cardinality using multi-column statistics 5.45574e-07 and 
with independence assumption 0.00231336. 
Picking cardinality 0.00231336

Selectivity: 0.00231336

根据问题中的信息，个人选择性是：

DGItemID = 19299400 中的 1063536
AnswerSourceID = 19299400 中的 970079

假设独立，因为AND我们将这些选择性相乘，然后乘以全表基数以产生行估计：

19299400 * (1063536/19299400 * 970079/19299400) = 53458.3427124.

有许多内部模型变体以不同的方式处理任务。只有少数被公开记录并通过提示或跟踪标志公开。

通常，以下提示似乎会有所帮助：

SELECT
    COUNT_BIG(*)
FROM [VaxxTracker].[dbo].[IRItemAnswer_Info] AS iiai1
WHERE
    iiai1.DGItemID = 1949 
    AND iiai1.AnswerSourceID = 1607
OPTION (USE HINT('ASSUME_MIN_SELECTIVITY_FOR_FILTER_ESTIMATES'));

文档

'ASSUME_MIN_SELECTIVITY_FOR_FILTER_ESTIMATES'
使 SQL Server 在估计过滤器的 AND 谓词以考虑完全相关时使用最小选择性生成计划。当与 SQL Server 2012 (11.x) 及更早版本的基数估计模型一起使用时，此提示名称等效于跟踪标志 4137，并且当跟踪标志 9471 与 SQL Server 2014 (12.x) 的基数估计模型一起使用时，具有类似的效果）或更高。

不幸的是，当基数估计从使用多列统计的基于频率的计算开始时，该提示不适用。

使用原始 CE 模型，您可能会获得更好的结果：

USE HINT ('FORCE_LEGACY_CARDINALITY_ESTIMATION')

Brendan McCaffrey · Answer 2 · 2021-12-22T12:28:18+08:00

Brendan McCaffrey

2021-12-22T12:28:18+08:002021-12-22T12:28:18+08:00

试试这个索引

CREATE NONCLUSTERED INDEX IRItemAnswerInfo_DGItemID_AnswerSourceID
ON dbo.IRItemAnswer_Info (DGItemID, AnswerSourceID,[IncidentID])
INCLUDE([AnswerBoolean])

如果这没有帮助，我会考虑的另一件事是将索引作为单个选择（无连接）进行故障排除并将结果直接放入临时表中，然后稍后再加入。

例如，试试下面的查询，看看你是否能得到正确的估计。如果可以，那应该确认您找到了正确的索引。然后将其他所有内容重新绑定。

SELECT *
FROM IRItemAnswer_Inf
WHERE IncidentID = @IncidentId
    AND DGItemID = @Answer1
    AND AnswerSourceID = @Answer1SetID

1

SQLpro · Answer 3 · 2021-12-22T09:17:19+08:00

您可以尝试以下重写：

WITH 
Phases (PhaseID) AS
(
SELECT IRPhaseSID
FROM   IncidentPhase_Code
WHERE  IRPhaseSID > 0
  AND  IRPhaseSID <> 1002

UNION ALL

SELECT IRPhaseSID
FROM   IncidentPhase_Code
WHERE  IRPhaseSID = -3
),
CTE (Age, IncidentID) AS
(
SELECT irai.AltLabel, 
       iria.IncidentID
FROM  IRItemAnswer_Info iria WITH(NOLOCK)
      INNER JOIN Incident_Info inci WITH(NOLOCK) ON inci.IncidentSID = iria.IncidentID
      INNER JOIN Phases ON Phases.PhaseID = inci.IRPhaseID
      INNER JOIN IncidentType_XRef intx WITH(NOLOCK) ON intx.IncidentID = inci.IncidentSID
      INNER JOIN dbo.IncidentTypeHierarchy_GetChildNodeIDs(1666) ithc ON ithc.IncidentTypeNodeSID = intx.IncidentTypeNodeID
      INNER JOIN IRDGroupItem_Info idgi WITH(NOLOCK) ON idgi.DGItemSID = iria.DGItemID
      INNER JOIN IRAlternative_Info irai WITH(NOLOCK) ON irai.AltSID = iria.AnswerSourceID
      INNER JOIN IRItemAnswer_Info iiai1 WITH(NOLOCK) ON iiai1.IncidentID = inci.IncidentSID
                                                         AND iiai1.DGItemID = @Answer1
                                                         AND iiai1.AnswerSourceID = @Answer1SetID
WHERE iria.DGItemID = 1879
      AND iria.AnswerBoolean = 1
      AND (inci.IncidentDate >= @DateRangeFrom)
      AND (inci.IncidentDate < DATEADD(d, 1, @DateRangeTo))
      AND (inci.FacilityID = @FacilityID)
               
)
SELECT Age AS Label, 
      COUNT(IncidentID) AS Cnt
FROM CTE
GROUP BY Age
ORDER BY Cnt DESC OPTION(RECOMPILE);

SQLpro · Answer 4 · 2021-12-22T11:13:49+08:00

SQLpro

2021-12-22T11:13:49+08:002021-12-22T11:13:49+08:00

您也可以尝试：

SELECT IRPhaseSID
FROM   IncidentPhase_Code
WHERE  IRPhaseSID > 0

UNION ALL

SELECT IRPhaseSID
FROM   IncidentPhase_Code
WHERE  IRPhaseSID = -3

EXCEPT 

SELECT IRPhaseSID
FROM   IncidentPhase_Code
WHERE  IRPhaseSID = 1002

-2

SQLpro · Answer 5 · 2021-12-22T11:28:07+08:00

SQLpro

2021-12-22T11:28:07+08:002021-12-22T11:28:07+08:00

至少，检查你是否有这些索引：

IRItemAnswer_Info（DGItemID、AnswerBoolean、IncidentID、AnswerSourceID）
Incident_Info（FacilityID、IncidentDate、IncidentSID、IRPhaseID）
阶段 (PhaseID)
IncidentType_XRef (IncidentID, IncidentTypeNodeID)
IRDGroupItem_Info (DGItemSID)
IRAlternative_Info (AltSID) 包括 (AltLabel)
IRItemAnswer_Info（DGItemID、AnswerSourceID、IncidentID）

如果没有创建它并测试...

-2

实际行和估计行差异很大

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

实际行和估计行差异很大

5 个回答

相关问题