AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / dba / 问题 / 305220
Accepted
Daniel Bragg
Daniel Bragg
Asked: 2021-12-21 15:38:05 +0800 CST2021-12-21 15:38:05 +0800 CST 2021-12-21 15:38:05 +0800 CST

实际行和估计行差异很大

  • 772

完整的实际计划在这里。

在执行计划之前(因为我正在调试一个运行不佳的计划)我有这个变量分配块:

DECLARE @Days INT = 180
DECLARE @DateRangeFrom DateTime = DATEADD(d, -@Days, getDate())
DECLARE @DateRangeTo DateTime = getDate()
DECLARE @FacilityID INT = 1010
DECLARE @Answer0 INT = 1879
DECLARE @Answer1 INT = 1949
DECLARE @Answer1SetID INT = 1607
DECLARE @Answer2 INT = 1907
DECLARE @Answer2SetID INT = 1593

我的第一个问题是我在 IRItemAnswer_Info 表(节点 ID 19)上执行的查找。它溢出到 Tempdb,它已经开始错误地开始查询。它引用了IRItemAnswerInfo_DGItemID_AnswerSourceID索引,这是正确的索引,因为我在DGItemIDand上匹配AnswerSourceID,然后返回IncidentID。索引创建为

CREATE NONCLUSTERED INDEX IRItemAnswerInfo_DGItemID_AnswerSourceID
ON dbo.IRItemAnswer_Info (DGItemID, AnswerSourceID) 
INCLUDE([IncidentID], [AnswerBoolean])

但是,查询的估计行数为 53,459,实际行数为 969,812。

我刚刚完成了强制新的统计数据UPDATE STATISTICS IRItemAnswer_Info IRItemAnswerInfo_DGItemID_AnswerSourceID WITH FULLSCAN,它没有任何区别。

DBCC SHOW_STATISTICS ('IRItemAnswer_Info', 'DGItemID')因为DGItemID=1949有EQ_ROWSas1,063,536和

DBCC SHOW_STATISTICS ('IRItemAnswer_Info', 'AnswerSourceID')因为AnswerSourceID=1607有EQ_ROWS_970,079

数据库正在运行兼容级别 140 (SQL Server 2017)。我们将运行 2019 年,但在执行此操作之前,我们需要在存储过程中纠正一些问题。

我接下来要看什么?


我选择了性能最差的输出,这是最常见的值。 IRItemAnswer_Info是一个包含用户定义的与事件相关联的答案的表格,其中DGItemID=1949是最常见的问题之一(几乎每个事件都有一个),而AnswerSourceID=1607最常见的答案是哪里。鉴于它们之间存在很强的相关性,我应该如何重新排序查询?

由于有点混乱,INNER JOIN同一张表有两个 s,IRItemAnswer_Info。一个是我正在寻找的答案(由问题iria.DGItemID=1879及其输出iria.AnswerSourceID链接确定irai.AltLabel),第二个是一个限制因素。我只想要问题iiai1.DGItemID=1949作为答案的记录iiai1.AnswerSourceID=1607。

我已经明确地从缓存中删除了计划(使用DBCC FREEPROCCACHE)并重新运行它,结果没有变化 - 哈希匹配仍在溢出。

sql-server query-performance
  • 5 5 个回答
  • 276 Views

5 个回答

  • Voted
  1. Best Answer
    Paul White
    2021-12-22T14:10:54+08:002021-12-22T14:10:54+08:00

    正如相关问答中所讨论的,SQL Server 如何知道谓词是相关的?SQL Server 默认假定谓词是完全独立的。

    它仅在单个前导列上具有详细的统计信息(直方图),即使在使用多列索引或统计信息的情况下也是如此。那么问题是如何组合来自两个独立谓词的两个统计直方图。

    例如,假设您有一个带有 的查询WHERE c1 = x AND c2 = y。根据直方图信息计算出的选择性为c1 = x0.2。c2 = y从单独的直方图中计算出的选择性为0.1。

    两个谓词在一起的选择性是什么?0.2? 0.1? 0.2 x 0.1?中间某个地方?

    如果没有特定的附加信息,SQL Server 必须做出有根据的猜测。最初的默认设置是假设完全独立。较新的基数估计框架使用指数退避(“介于两者之间”选项)。

    您的情况略有不同,因为您对多列索引中的列进行了两次相等测试,该索引带有多列统计信息。这些并不像听起来那么宏伟。我们仍然只得到前列的直方图,但统计对象确实包含多列的平均密度信息。

    例如,(a,b,c) 上的索引将提供 (a)、(a,b) 和 (a,b,c) 的密度信息。这个频率信息确实捕捉到了一些关于相关性的信息,但它在每个级别都是一个数字。这意味着在给定相同数量的列的情况下,基于频率的估计将始终产生相同的估计。

    SQL Server 确实从多列频率信息中生成选择性估计,但它也从各个列直方图(如果可用)计算选择性。直方图估计假设独立,并且不使用指数退避。

    如果它比基于频率的估计具有更高的选择性,则服务器选择基于直方图的估计。在您的示例中似乎就是这种情况。

    Plan for computation:
    
      CSelCalcPointPredsFreqBased
          Distinct value calculation:
              CDVCPlanLeaf
                  1 Multi-Column Stats, 0 Single-Column Stats, 0 Guesses
    
          Individual selectivity calculations:
              CSelCalcColumnInInterval
                  Column: QCOL: [IIAI].DGItemID
    
              CSelCalcColumnInInterval
                  Column: QCOL: [IIAI].AnswerSourceID
    
    Loaded histogram for column QCOL: [IIAI].DGItemID from stats with id 2
    Loaded histogram for column QCOL: [IIAI].AnswerSourceID from stats with id 3
    
    Cardinality using multi-column statistics 5.45574e-07 and 
    with independence assumption 0.00231336. 
    Picking cardinality 0.00231336
    
    Selectivity: 0.00231336
    

    根据问题中的信息,个人选择性是:

    • DGItemID = 19299400 中的 1063536
    • AnswerSourceID = 19299400 中的 970079

    假设独立,因为AND我们将这些选择性相乘,然后乘以全表基数以产生行估计:

    19299400 * (1063536/19299400 * 970079/19299400) = 53458.3427124.
    

    有许多内部模型变体以不同的方式处理任务。只有少数被公开记录并通过提示或跟踪标志公开。

    通常,以下提示似乎会有所帮助:

    SELECT
        COUNT_BIG(*)
    FROM [VaxxTracker].[dbo].[IRItemAnswer_Info] AS iiai1
    WHERE
        iiai1.DGItemID = 1949 
        AND iiai1.AnswerSourceID = 1607
    OPTION (USE HINT('ASSUME_MIN_SELECTIVITY_FOR_FILTER_ESTIMATES'));
    

    文档

    • 'ASSUME_MIN_SELECTIVITY_FOR_FILTER_ESTIMATES'
      使 SQL Server 在估计过滤器的 AND 谓词以考虑完全相关时使用最小选择性生成计划。当与 SQL Server 2012 (11.x) 及更早版本的基数估计模型一起使用时,此提示名称等效于跟踪标志 4137,并且当跟踪标志 9471 与 SQL Server 2014 (12.x) 的基数估计模型一起使用时,具有类似的效果) 或更高。

    不幸的是,当基数估计从使用多列统计的基于频率的计算开始时,该提示不适用。

    使用原始 CE 模型,您可能会获得更好的结果:

    USE HINT ('FORCE_LEGACY_CARDINALITY_ESTIMATION')
    
    • 6
  2. Brendan McCaffrey
    2021-12-22T12:28:18+08:002021-12-22T12:28:18+08:00

    试试这个索引

    CREATE NONCLUSTERED INDEX IRItemAnswerInfo_DGItemID_AnswerSourceID
    ON dbo.IRItemAnswer_Info (DGItemID, AnswerSourceID,[IncidentID])
    INCLUDE([AnswerBoolean])
    

    如果这没有帮助,我会考虑的另一件事是将索引作为单个选择(无连接)进行故障排除并将结果直接放入临时表中,然后稍后再加入。

    例如,试试下面的查询,看看你是否能得到正确的估计。如果可以,那应该确认您找到了正确的索引。然后将其他所有内容重新绑定。

    SELECT *
    FROM IRItemAnswer_Inf
    WHERE IncidentID = @IncidentId
        AND DGItemID = @Answer1
        AND AnswerSourceID = @Answer1SetID
    
    • 1
  3. SQLpro
    2021-12-22T09:17:19+08:002021-12-22T09:17:19+08:00

    您可以尝试以下重写:

    WITH 
    Phases (PhaseID) AS
    (
    SELECT IRPhaseSID
    FROM   IncidentPhase_Code
    WHERE  IRPhaseSID > 0
      AND  IRPhaseSID <> 1002
    
    UNION ALL
    
    SELECT IRPhaseSID
    FROM   IncidentPhase_Code
    WHERE  IRPhaseSID = -3
    ),
    CTE (Age, IncidentID) AS
    (
    SELECT irai.AltLabel, 
           iria.IncidentID
    FROM  IRItemAnswer_Info iria WITH(NOLOCK)
          INNER JOIN Incident_Info inci WITH(NOLOCK) ON inci.IncidentSID = iria.IncidentID
          INNER JOIN Phases ON Phases.PhaseID = inci.IRPhaseID
          INNER JOIN IncidentType_XRef intx WITH(NOLOCK) ON intx.IncidentID = inci.IncidentSID
          INNER JOIN dbo.IncidentTypeHierarchy_GetChildNodeIDs(1666) ithc ON ithc.IncidentTypeNodeSID = intx.IncidentTypeNodeID
          INNER JOIN IRDGroupItem_Info idgi WITH(NOLOCK) ON idgi.DGItemSID = iria.DGItemID
          INNER JOIN IRAlternative_Info irai WITH(NOLOCK) ON irai.AltSID = iria.AnswerSourceID
          INNER JOIN IRItemAnswer_Info iiai1 WITH(NOLOCK) ON iiai1.IncidentID = inci.IncidentSID
                                                             AND iiai1.DGItemID = @Answer1
                                                             AND iiai1.AnswerSourceID = @Answer1SetID
    WHERE iria.DGItemID = 1879
          AND iria.AnswerBoolean = 1
          AND (inci.IncidentDate >= @DateRangeFrom)
          AND (inci.IncidentDate < DATEADD(d, 1, @DateRangeTo))
          AND (inci.FacilityID = @FacilityID)
                   
    )
    SELECT Age AS Label, 
          COUNT(IncidentID) AS Cnt
    FROM CTE
    GROUP BY Age
    ORDER BY Cnt DESC OPTION(RECOMPILE);
    
    • -2
  4. SQLpro
    2021-12-22T11:13:49+08:002021-12-22T11:13:49+08:00

    您也可以尝试:

    SELECT IRPhaseSID
    FROM   IncidentPhase_Code
    WHERE  IRPhaseSID > 0
    
    UNION ALL
    
    SELECT IRPhaseSID
    FROM   IncidentPhase_Code
    WHERE  IRPhaseSID = -3
    
    EXCEPT 
    
    SELECT IRPhaseSID
    FROM   IncidentPhase_Code
    WHERE  IRPhaseSID = 1002
    
    • -2
  5. SQLpro
    2021-12-22T11:28:07+08:002021-12-22T11:28:07+08:00

    至少,检查你是否有这些索引:

    1. IRItemAnswer_Info(DGItemID、AnswerBoolean、IncidentID、AnswerSourceID)
    2. Incident_Info(FacilityID、IncidentDate、IncidentSID、IRPhaseID)
    3. 阶段 (PhaseID)
    4. IncidentType_XRef (IncidentID, IncidentTypeNodeID)
    5. IRDGroupItem_Info (DGItemSID)
    6. IRAlternative_Info (AltSID) 包括 (AltLabel)
    7. IRItemAnswer_Info(DGItemID、AnswerSourceID、IncidentID)

    如果没有创建它并测试...

    • -2

相关问题

  • SQL Server - 使用聚集索引时如何存储数据页

  • 我需要为每种类型的查询使用单独的索引,还是一个多列索引可以工作?

  • 什么时候应该使用唯一约束而不是唯一索引?

  • 死锁的主要原因是什么,可以预防吗?

  • 如何确定是否需要或需要索引

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目

    • 12 个回答
  • Marko Smith

    如何让sqlplus的输出出现在一行中?

    • 3 个回答
  • Marko Smith

    选择具有最大日期或最晚日期的日期

    • 3 个回答
  • Marko Smith

    如何列出 PostgreSQL 中的所有模式?

    • 4 个回答
  • Marko Smith

    列出指定表的所有列

    • 5 个回答
  • Marko Smith

    如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

    • 4 个回答
  • Marko Smith

    你如何mysqldump特定的表?

    • 4 个回答
  • Marko Smith

    使用 psql 列出数据库权限

    • 10 个回答
  • Marko Smith

    如何从 PostgreSQL 中的选择查询中将值插入表中?

    • 4 个回答
  • Marko Smith

    如何使用 psql 列出所有数据库和表?

    • 7 个回答
  • Martin Hope
    Jin 连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane 如何列出 PostgreSQL 中的所有模式? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh 为什么事务日志不断增长或空间不足? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland 列出指定表的所有列 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney MySQL 能否合理地对数十亿行执行查询? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx 如何监控大型 .sql 文件的导入进度? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison 你如何mysqldump特定的表? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 对 SQL 查询进行计时? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas 如何从 PostgreSQL 中的选择查询中将值插入表中? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 列出所有数据库和表? 2011-02-18 00:45:49 +0800 CST

热门标签

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve