AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / dba / 问题 / 327966
Accepted
lifeisajourney
lifeisajourney
Asked: 2023-06-07 03:30:25 +0800 CST2023-06-07 03:30:25 +0800 CST 2023-06-07 03:30:25 +0800 CST

行数较少的临时表导致聚集索引查找,而更多行导致聚集索引扫描 - SQL Server

  • 772

我有下表和数据:

CREATE TABLE myTable (
    ID INT IDENTITY(1,1) PRIMARY KEY,
    Column1 VARCHAR(50),
    Column2 VARCHAR(50),
    Column3 VARCHAR(50),
    Column4 VARCHAR(50),
    Column5 VARCHAR(50),
    Column6 VARCHAR(50),
    Column7 VARCHAR(50),
    Column8 VARCHAR(50),
    Column9 VARCHAR(50),
    Column10 VARCHAR(50)
)

DECLARE @i INT = 1
DECLARE @j INT = 1
DECLARE @distinct_value_count INT = 20
DECLARE @distinct_value_count_with_more_rows INT = 3
DECLARE @rows_per_distinct_value INT = (20000 - (@distinct_value_count_with_more_rows * 2000)) / (@distinct_value_count - @distinct_value_count_with_more_rows)

WHILE @i <= @distinct_value_count
BEGIN
    DECLARE @current_rows_per_value INT = @rows_per_distinct_value
    IF @i <= @distinct_value_count_with_more_rows
    BEGIN
        SET @current_rows_per_value = @rows_per_distinct_value + 2000
    END
    
    SET @j = 1
    WHILE @j <= @current_rows_per_value
    BEGIN
        INSERT INTO myTable (Column1, Column2, Column3, Column4, Column5, Column6, Column7, Column8, Column9, Column10)
        VALUES ('Value' + CAST(@i AS VARCHAR(2)),
                'Value' + CAST(@j AS VARCHAR(5)),
                'Value' + CAST(@j + 1 AS VARCHAR(5)),
                'Value' + CAST(@j + 2 AS VARCHAR(5)),
                'Value' + CAST(@j + 3 AS VARCHAR(5)),
                'Value' + CAST(@j + 4 AS VARCHAR(5)),
                'Value' + CAST(@j + 5 AS VARCHAR(5)),
                'Value' + CAST(@j + 6 AS VARCHAR(5)),
                'Value' + CAST(@j + 7 AS VARCHAR(5)),
                'Value' + CAST(@j + 8 AS VARCHAR(5)))
        SET @j = @j + 1
    END
    
    SET @i = @i + 1
END

Alter Table dbo.myTable
Add Column11 varchar(50), Column12 varchar(50)

Alter Table dbo.myTable
Add dateModified datetime

Update dbo.myTable
  set Column11 = Column1
     ,Column12 = Column1

Update Top (10) dbo.myTable
   Set Column11 = 'Value7'
  Where Column1 = 'Value1'

Update Top (10) dbo.myTable
   Set Column12 = 'Value7'
  Where Column1 = 'Value1'

Update Top (10) dbo.myTable
   Set Column11 = 'Value6'
  Where Column1 = 'Value1'

Update Top (10) dbo.myTable
   Set Column12 = 'Value6'
  Where Column1 = 'Value1'

Update Top (10) dbo.myTable
   Set Column11 = 'Value5'
  Where Column1 = 'Value1'

Update Top (10) dbo.myTable
   Set Column12 = 'Value5'
  Where Column1 = 'Value1'

Update dbo.myTable
  set dateModified = getdate() + ID

CREATE NONCLUSTERED INDEX [Idx_col] ON [dbo].[myTable]
(
    [Column1] ASC,
    [Column11] ASC,
    [Column12] ASC,
    [dateModified] ASC
)
INCLUDE([Column5],[Column6]) 

我必须根据几列进行过滤并返回表中的所有列。为此,我有一个索引涵盖需要过滤的列。我将查询分为两部分:

  1. 获取所有满足过滤器的主键行并将它们存储在临时表中。此查询使用非聚集索引。

  2. 将此临时表连接回主键列上的主表,以便聚集索引用于获取所有列。

但是,当我尝试这样做时,我遇到了一个问题。在第一个场景中,我将所有过滤的行放入一个临时表中,然后当我将它连接回主表时,它正在执行聚簇索引扫描。在第二种情况下,我只将前 50 行放入临时表,当我将其连接到主表时,它正在执行聚集索引查找。我很困惑为什么会这样。在这两种情况下,临时表上都没有索引。如果有人能帮助我了解发生了什么,我将不胜感激。谢谢你!

场景 1:

SELECT id
INTO #tmpId
FROM myTable
WHERE Column1= 'Value1'
AND Column11 In( 'Value1','Value5','Value6', 'Value7')
And Column12 In ('Value1','Value6')
And dateModified > dateAdd(day,-5, getdate())

SELECT *
FROM myTable m
JOIN #tmpId t
ON m.id = t.id

drop table if exists #tmpId

执行计划场景 1: https://www.brentozar.com/pastetheplan/? id=rkDAD-aLh

场景 2:

SELECT id
INTO #tmpId
FROM myTable
WHERE Column1= 'Value1'
AND Column11 In( 'Value1','Value5','Value6', 'Value7')
And Column12 In ('Value1','Value6')
And dateModified > dateAdd(day,-5, getdate())
Order by dateModified desc offset 0 rows fetch next 50 rows only

SELECT *
FROM myTable m
JOIN #tmpId t
ON m.id = t.id

drop table if exists #tmpId

场景 2 执行计划: https://www.brentozar.com/pastetheplan/? id=rJVbuWaLh

sql-server
  • 2 2 个回答
  • 54 Views

2 个回答

  • Voted
  1. J.D.
    2023-06-07T20:34:31+08:002023-06-07T20:34:31+08:00

    正如 Andy 提到的,您提供的执行计划没有任何问题。SQL 引擎正在按预期工作。根据正在处理的数据的大小,不同的操作会更高效、更快速。Index Seeks 擅长查找少量数据,而 Index Scans 通常更擅长查找大量数据。

    将索引想象成电话簿。名称是数据,它按LastNamethen by排序FirstName。如果您需要查找一个人的电话号码 -John Smith例如,最快的方法是直接跳转到页面并S... LastNames直接跳转到John该页面上的位置。因此,相当于 Index Seek 操作。

    现在,对于不同的场景,假设您需要查找每个人的电话号码。您可以任意跳转到'S...'页面然后跳转到John,然后跳转到B页面并跳转到Mary,然后跳转到G页面并跳转Tom到然后跳回到页面S并跳转到Ralph。所有这些大量的跳跃都有开销。因为您知道无论如何都需要阅读电话簿中的每个电话号码,所以从第一页的第一个名字开始,然后按顺序阅读电话簿,直到到达最前面的名字会更快(开销更少)最后一页上的姓氏。这相当于索引扫描操作。

    这基本上就是您的两个查询及其执行计划正在做的事情。

    SQL 引擎有一个叫做临界点的东西,它根据正在查找的数据的基数,用作阈值来决定索引扫描何时比索引查找性能更高。但它是一个复杂的算法,不能明确地计算为一个静态值,所以不要担心试图弄清楚它是什么。无论如何,SQL 引擎通常最清楚。


    如果我向临时表添加聚簇索引会有帮助吗?

    这里没有任何帮助,如前所述,SQL 引擎正在正常工作,为您提供它认为必要的最有效的计划。但如果你的问题更确切地说是它会改变什么,答案是否定的,不太可能。

    它使用 Tipping Point 算法所做的选择基于需要查找的行数。该数字不会因为您将聚集索引添加到临时表而改变。

    • 2
  2. Best Answer
    Andy DB Analyst
    2023-06-07T04:44:15+08:002023-06-07T04:44:15+08:00

    索引搜索有利于检索相对少量的数据。而且它会大大减慢检索大量行的查询。有时,索引查找的不当使用会使查询速度减慢数小时。这就是关于要选择的行数的信息对于查询优化至关重要的原因。

    当您选择 50 行时,索引查找工作得很好。但是看起来您 5 天的数据太大,索引查找比索引扫描快。这就是优化器这次使用索引扫描的原因。

    您还可以尝试使用 FORCESEEK 和 FORCESCAN 优化器提示来监视差异。

    • 0

相关问题

  • SQL Server - 使用聚集索引时如何存储数据页

  • 我需要为每种类型的查询使用单独的索引,还是一个多列索引可以工作?

  • 什么时候应该使用唯一约束而不是唯一索引?

  • 死锁的主要原因是什么,可以预防吗?

  • 如何确定是否需要或需要索引

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目

    • 12 个回答
  • Marko Smith

    如何让sqlplus的输出出现在一行中?

    • 3 个回答
  • Marko Smith

    选择具有最大日期或最晚日期的日期

    • 3 个回答
  • Marko Smith

    如何列出 PostgreSQL 中的所有模式?

    • 4 个回答
  • Marko Smith

    列出指定表的所有列

    • 5 个回答
  • Marko Smith

    如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

    • 4 个回答
  • Marko Smith

    你如何mysqldump特定的表?

    • 4 个回答
  • Marko Smith

    使用 psql 列出数据库权限

    • 10 个回答
  • Marko Smith

    如何从 PostgreSQL 中的选择查询中将值插入表中?

    • 4 个回答
  • Marko Smith

    如何使用 psql 列出所有数据库和表?

    • 7 个回答
  • Martin Hope
    Jin 连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane 如何列出 PostgreSQL 中的所有模式? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh 为什么事务日志不断增长或空间不足? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland 列出指定表的所有列 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney MySQL 能否合理地对数十亿行执行查询? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx 如何监控大型 .sql 文件的导入进度? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison 你如何mysqldump特定的表? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 对 SQL 查询进行计时? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas 如何从 PostgreSQL 中的选择查询中将值插入表中? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 列出所有数据库和表? 2011-02-18 00:45:49 +0800 CST

热门标签

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve