AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / dba / 问题 / 96913
Accepted
8kb
8kb
Asked: 2015-04-03 08:46:18 +0800 CST2015-04-03 08:46:18 +0800 CST 2015-04-03 08:46:18 +0800 CST

SQL Server 的优化器如何估计连接表中的行数?

  • 772

我在AdventureWorks2012数据库中运行此查询:

SELECT 
    s.SalesOrderID,
    d.CarrierTrackingNumber,
    d.ProductID,
    d.OrderQty
FROM Sales.SalesOrderHeader s 
JOIN Sales.SalesOrderDetail d 
    ON s.SalesOrderID = d.SalesOrderID
WHERE s.CustomerID = 11077

如果我查看估计的执行计划,我会看到以下内容:

在此处输入图像描述

初始索引搜索(右上角)使用 IX_SalesOrderHeader_CustomerID 索引并搜索文字 11077。它估计有 2.6192 行。

在此处输入图像描述

如果我使用DBCC SHOW_STATISTICS ('Sales.SalesOrderHeader', 'IX_SalesOrderHeader_CustomerID') WITH HISTOGRAM,则表明值 11077 在两个采样键 11019 和 11091 之间。

在此处输入图像描述

11019 和 11091 之间的平均不同行数为 2.619718,或四舍五入为 2.61972,这是为索引查找显示的估计行的值。

我不明白的部分是聚集索引查找 SalesOrderDetail 表的估计行数。

在此处输入图像描述

如果我运行DBCC SHOW_STATISTICS ('Sales.SalesOrderDetail', 'PK_SalesOrderDetail_SalesOrderID_SalesOrderDetailID'):

在此处输入图像描述

所以 SalesOrderID(我加入)的密度是 3.178134E-05。这意味着 1/3.178134E-05 (31465) 等于 SalesOrderDetail 表中唯一 SalesOrderID 值的数量。

如果 SalesOrderDetail 中有 31465 个唯一的 SalesOrderID,则在均匀分布的情况下,每个 SalesOrderID 的平均行数为 121317(总行数)除以 31465。平均值为 3.85561

因此,如果估计要循环的行数是 2.61972,并且要在 3.85561 中返回平均值,我认为估计的行数将是 2.61972 * 3.85561 = 10.10062。

但估计的行数是 11.4867。

我认为我对第二个估计的理解是不正确的,不同的数字似乎表明了这一点。我错过了什么?

sql-server sql-server-2012
  • 1 1 个回答
  • 2808 Views

1 个回答

  • Voted
  1. Best Answer
    Paul White
    2015-04-06T06:38:08+08:002015-04-06T06:38:08+08:00

    我认为我对第二个估计的理解是不正确的,不同的数字似乎表明了这一点。我错过了什么?

    使用 SQL Server 2012 基数估计器,连接的选择性驱动嵌套循环连接内侧的估计行数,而不是相反。

    11.4867 数字是通过将连接输出的计算估计基数 (30.0919) 除以迭代次数 (2.61972)得出的(用于在 showplan 中显示)。使用单精度浮点运算的结果是11.4867。

    它真的是那么简单。请注意,(逻辑)连接选择性与物理连接运算符的选择无关。无论最终是使用嵌套循环、哈希还是合并连接物理运算符执行连接,都保持不变。

    在 SQL Server 2012 及更早版本中,连接选择性(作为一个整体)是使用每个表中的直方图估计的SalesOrderID(针对每个直方图步骤计算,在必要时使用线性插值在步骤边界对齐之后)。SalesOrderID与表格关联的直方图SalesOrderHeader也针对独立CustomerID滤波器的缩放效果进行了调整。

    这并不是说问题中提出的替代计算存在任何根本“错误”;它只是做了一组不同的假设。对于给定的逻辑操作序列,总会有不同的方法来计算或组合估计。不能普遍保证应用于相同数据的不同统计方法会产生相同的答案,或者一种方法总是优于另一种方法。应用不同统计方法导致的不一致甚至会出现在单个最终执行计划中,尽管它们很少被注意到。

    作为旁注,SQL Server 2014 基数估计器采用不同的方法来组合独立过滤器调整的直方图信息(“粗略对齐”),这导致该查询的最终估计为10.1006行:

    Plan for computation:
    
      CSelCalcExpressionComparedToExpression
      (QCOL: [s].SalesOrderID x_cmpEq QCOL: [d].SalesOrderID)
    
    Loaded histogram for column QCOL: [s].SalesOrderID from stats with id 1
    Loaded histogram for column QCOL: [d].SalesOrderID from stats with id 1
    
    Stats collection generated: 
    
      CStCollJoin(ID=4, **CARD=10.1006** x_jtInner)
          CStCollFilter(ID=3, CARD=2.61972)
              CStCollBaseTable(ID=1, CARD=31465 TBL: Sales.SalesOrderHeader AS TBL: s)
          CStCollBaseTable(ID=2, CARD=121317 TBL: Sales.SalesOrderDetail AS TBL: d)
    

    这恰好与问题中的计算结果相同,尽管详细推理不同(即它不是基于假设的嵌套循环实现)。

    • 21

相关问题

  • SQL Server - 使用聚集索引时如何存储数据页

  • 我需要为每种类型的查询使用单独的索引,还是一个多列索引可以工作?

  • 什么时候应该使用唯一约束而不是唯一索引?

  • 死锁的主要原因是什么,可以预防吗?

  • 如何确定是否需要或需要索引

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目

    • 12 个回答
  • Marko Smith

    如何让sqlplus的输出出现在一行中?

    • 3 个回答
  • Marko Smith

    选择具有最大日期或最晚日期的日期

    • 3 个回答
  • Marko Smith

    如何列出 PostgreSQL 中的所有模式?

    • 4 个回答
  • Marko Smith

    列出指定表的所有列

    • 5 个回答
  • Marko Smith

    如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

    • 4 个回答
  • Marko Smith

    你如何mysqldump特定的表?

    • 4 个回答
  • Marko Smith

    使用 psql 列出数据库权限

    • 10 个回答
  • Marko Smith

    如何从 PostgreSQL 中的选择查询中将值插入表中?

    • 4 个回答
  • Marko Smith

    如何使用 psql 列出所有数据库和表?

    • 7 个回答
  • Martin Hope
    Jin 连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane 如何列出 PostgreSQL 中的所有模式? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh 为什么事务日志不断增长或空间不足? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland 列出指定表的所有列 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney MySQL 能否合理地对数十亿行执行查询? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx 如何监控大型 .sql 文件的导入进度? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison 你如何mysqldump特定的表? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 对 SQL 查询进行计时? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas 如何从 PostgreSQL 中的选择查询中将值插入表中? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 列出所有数据库和表? 2011-02-18 00:45:49 +0800 CST

热门标签

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve