SQL Server - 使用聚集索引时如何存储数据页

Question

Asked: 2023-03-02 20:00:29 +0800 CST2023-03-02 20:00:29 +0800 CST 2023-03-02 20:00:29 +0800 CST

索引重建期间的统计更新

772

我手头的任务是移动重建一个大表以将 LOB 页面移动到 SQL Server 2017 企业版上的不同文件组。

我在概念验证环境中测试脚本，我可以看到总共CREATE INDEX .. DROP_EXISTING=ON需要大约 6 个小时。

CREATE UNIQUE CLUSTERED INDEX [PK_TABLE1]
ON [dbo].[TABLE1] ([Id] ASC)
 WITH (DROP_EXISTING = ON , FILLFACTOR = 100, PAD_INDEX = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON, IGNORE_DUP_KEY = OFF, DATA_COMPRESSION = NONE, STATISTICS_NORECOMPUTE = OFF, ONLINE = ON, MAXDOP=2) 
ON PS_MOVE_HELPER_D59E24BC73414AA8A5FB2E5D8F93C3D8([Id] );

CREATE UNIQUE CLUSTERED INDEX [PK_TABLE1]
ON [dbo].[TABLE1] ([Id] ASC)
 WITH (DROP_EXISTING = ON , FILLFACTOR = 100, PAD_INDEX = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON, IGNORE_DUP_KEY = OFF, DATA_COMPRESSION = NONE, STATISTICS_NORECOMPUTE = OFF, ONLINE = ON, MAXDOP=2) 
ON [LOB_DATA];

CREATE UNIQUE CLUSTERED INDEX [PK_TABLE1]
ON [dbo].[TABLE1] ([Id] ASC)
 WITH (DROP_EXISTING = ON , FILLFACTOR = 100, PAD_INDEX = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON, IGNORE_DUP_KEY = OFF, DATA_COMPRESSION = NONE, STATISTICS_NORECOMPUTE = OFF, ONLINE = ON, MAXDOP=2) 
ON [ROW_DATA];

每次索引重建发生时，关联的统计数据是否得到更新？
统计更新通常在索引重建完成后异步触发？
6 小时的总持续时间是否也包括更新统计信息所花费的时间？或者仅在索引重建完成 6 小时后才触发异步更新统计信息？
我可以使用 auto_stats 扩展事件捕获此统计信息更新事件并查看需要多长时间吗？

1 个回答

Voted

Paul White · Answer 1 · 2023-03-02T22:32:04+08:00

是的，重建索引时会更新统计信息。
不，统计数据通常是作为填充索引*的副作用收集的。数据流已经按需要排序，因此可以同时填充统计数据。需要明确的是，索引填充和统计信息收集使用相同的数据流和执行计划同时发生。
是的，总时间包括构建统计信息，但与重建索引相比，这是一个很小的开销。
不，作为重建索引的副作用而更新的统计信息不会触发该auto_stats事件。您可以跟踪扩展事件的进展progress_report_online_index_operation，但不会显示单独的统计构建事件，因为没有。

_{在线索引构建期间的示例调用堆栈}

你的进程很慢，因为你在做大量的资源密集型工作，而不是因为统计数据刷新。在 Microsoft 提供一种方法来直接支持您需要的操作（将各个分配单元移动到不同的文件组）之前，这真的无法避免。

对辅助分区方案的第一次重建将是单线程的，并且具有不必要的排序。

在 LOB 文件组上重建索引的成本很高，即使您这样做只是为了删除分区。SQL Server 不知道你在做什么，所以只是按照你的要求继续重建整个表。

第三次重建也很昂贵，但这个过程确实会让你到达你最终需要去的地方，同时保持表格大部分在线。

加速

BULK_LOGGED在数据库设置为或恢复模型的情况下执行重建，SIMPLE以尽可能利用最少的日志记录。

SWITCH如果您能够使用源表，则可以避免一次重建和单线程排序：

在上创建临时分区方案和空函数PRIMARY。
创建一个与源匹配但在新方案上分区的交换表。
开始交易
- SWITCH源表到分区表。这应该是一个即时的元数据操作。无论如何指定WAIT_AT_LOW_PRIORITY选项。
- 删除原始表。
- 重命名开关表及其主键以匹配原始名称。
如果到目前为止的操作成功，则提交事务。
联机重建聚集索引以将所有内容移动到LOB_DATA文件组。
- 该计划将使用并行性并避免排序。
- 结果是一个非分区表，其中包含LOB_DATA文件组上的所有分配单元。
删除临时分区方案和函数。
第二次联机重建聚集索引以将非 LOB 分配单元移动到ROW_DATA文件组。

您现在拥有原始表，其中包含LOB_DATA文件组中的 LOB 数据以及文件组中的所有其他内容ROW_DATA。

脚本

重组 Stack Overflow 示例数据库中的用户表的演示（首先创建文件组）：

-- Temporary partitioning function and scheme
CREATE PARTITION FUNCTION PF (integer) AS RANGE FOR VALUES ();
CREATE PARTITION SCHEME PS AS PARTITION PF ALL TO ([PRIMARY]);

-- Switch table
CREATE TABLE [dbo].[Users_Switch]
(
    [Id] [int] IDENTITY(1,1) NOT NULL,
    [AboutMe] [nvarchar](max) NULL,
    [Age] [int] NULL,
    [CreationDate] [datetime] NOT NULL,
    [DisplayName] [nvarchar](40) NOT NULL,
    [DownVotes] [int] NOT NULL,
    [EmailHash] [nvarchar](40) NULL,
    [LastAccessDate] [datetime] NOT NULL,
    [Location] [nvarchar](100) NULL,
    [Reputation] [int] NOT NULL,
    [UpVotes] [int] NOT NULL,
    [Views] [int] NOT NULL,
    [WebsiteUrl] [nvarchar](200) NULL,
    [AccountId] [int] NULL,
    CONSTRAINT [PK_Users_Switch_Id] 
        PRIMARY KEY CLUSTERED ([Id] ASC)
        ON PS (Id)
) ON PS (Id);

-- Optional, to match source table
EXECUTE sys.sp_tableoption
    @TableNamePattern = N'dbo.Users_Switch',
    @OptionName = 'large value types out of row',
    @OptionValue = 'on';

BEGIN TRY;
    BEGIN TRANSACTION;

    -- Switch
    ALTER TABLE dbo.Users
        SWITCH TO dbo.Users_Switch 
        PARTITION 1
        WITH
        (
            WAIT_AT_LOW_PRIORITY 
            ( 
                MAX_DURATION = 1 MINUTES, 
                ABORT_AFTER_WAIT = SELF
            )
        );

    -- Drop original
    DROP TABLE dbo.Users;

    -- Rename table
    EXECUTE sys.sp_rename 
        @objname = N'dbo.Users_Switch',
        @newname = N'Users',
        @objtype = 'OBJECT';

    -- Rename primary key
    EXECUTE sys.sp_rename 
        @objname = N'PK_Users_Switch_Id',
        @newname = N'PK_Users_Id',
        @objtype = 'OBJECT';

    COMMIT TRANSACTION;
END TRY
BEGIN CATCH
    IF @@TRANCOUNT > 0 ROLLBACK TRANSACTION;
    THROW;
END CATCH;

-- Move everything to LOB_DATA
-- Parallel, no sort
CREATE UNIQUE CLUSTERED INDEX [PK_Users_Id] 
ON dbo.Users (Id)
WITH (ONLINE = ON, DROP_EXISTING = ON)
ON LOB_DATA;

-- Drop temporary partitioning function and scheme
DROP PARTITION SCHEME PS;
DROP PARTITION FUNCTION PF;

-- Move non-LOB data to ROW_DATA
-- Also parallel, no sort
CREATE UNIQUE CLUSTERED INDEX [PK_Users_Id] 
ON dbo.Users (Id)
WITH (ONLINE = ON, DROP_EXISTING = ON)
ON ROW_DATA;

-- Done

要将 Users 表重置为一切正常PRIMARY：

IF EXISTS
(
    SELECT * 
    FROM sys.partitions AS P
    JOIN sys.allocation_units AS AU 
        ON P.hobt_id = AU.container_id
    JOIN sys.filegroups AS FG 
        ON FG.data_space_id = AU.data_space_id
    WHERE
        P.[object_id] = OBJECT_ID(N'dbo.Users', 'U')
        AND FG.[name] != N'PRIMARY'
)
BEGIN
    -- Temporary partitioning function and scheme
    CREATE PARTITION FUNCTION PF (integer) AS RANGE FOR VALUES ();
    CREATE PARTITION SCHEME PS AS PARTITION PF ALL TO ([PRIMARY]);

    -- Move everything to PRIMARY
    -- Single-threaded, sort
    CREATE UNIQUE CLUSTERED INDEX [PK_Users_Id] 
    ON dbo.Users (Id)
    WITH (ONLINE = ON, DROP_EXISTING = ON)
    ON PS (Id);

    -- Make table non-partitioned
    CREATE UNIQUE CLUSTERED INDEX [PK_Users_Id] 
    ON dbo.Users (Id)
    WITH (ONLINE = ON, DROP_EXISTING = ON)
    ON [PRIMARY];

    -- Drop temporary partitioning function and scheme
    DROP PARTITION SCHEME PS;
    DROP PARTITION FUNCTION PF;
END;

_{* 第一次从非分区表重建到分区表是此规则的一个例外示例。此索引构建可能会导致单独的统计信息刷新，但前提是 SQL Server 认为现有统计信息已过时。到目前为止我还无法重现这一点，所以它仍然只是一种可能性。}

索引重建期间的统计更新

加速

脚本

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

索引重建期间的统计更新

1 个回答

加速

脚本

相关问题