SQL Server - 使用聚集索引时如何存储数据页

Question

Asked: 2016-10-26 09:57:12 +0800 CST2016-10-26 09:57:12 +0800 CST 2016-10-26 09:57:12 +0800 CST

LIKE 运算符的基数估计（局部变量）

772

我的印象是，在LIKE对未知场景进行所有优化时，旧版和新版 CE 都使用 9% 的估计值（假设相关统计数据可用并且查询优化器不必求助于选择性猜测）。

在对信用数据库执行以下查询时，我在不同的 CE 下得到不同的估计。在新的 CE 下，我收到了预期的 900 行的估计值，在旧版 CE 下，我收到了 241.416 的估计值，但我无法弄清楚这个估计值是如何得出的。有没有人能够阐明任何观点？

-- New CE (Estimate = 900)
DECLARE @LastName VARCHAR(15) = 'BA%'
SELECT * FROM [Credit].[dbo].[member]
WHERE [lastname] LIKE @LastName;

-- Forcing Legacy CE (Estimate = 241.416)
DECLARE @LastName VARCHAR(15) = 'BA%'
SELECT * FROM [Credit].[dbo].[member]
WHERE [lastname] LIKE @LastName
OPTION (
QUERYTRACEON 9481,
QUERYTRACEON 9292,
QUERYTRACEON 9204,
QUERYTRACEON 3604
);

在我的场景中，我已经将信用数据库设置为兼容级别 120，因此为什么在第二个查询中我使用跟踪标志来强制使用旧版 CE，并提供有关查询优化器使用/考虑哪些统计信息的信息。我可以看到正在使用“姓氏”的列统计信息，但我仍然无法计算出 241.416 的估计值是如何得出的。

除了这篇 Itzik Ben-Gan 文章外，我在网上找不到任何东西，该文章指出“在所有优化未知场景中使用 LIKE 谓词时，旧版和新版 CE 都使用 9% 的估计值。”。该帖子中的信息似乎不正确。

2 个回答

Voted

Paul White · Answer 1 · 2016-10-29T08:50:39+08:00

LIKE 在你的情况下的猜测是基于：

G: 标准的 9% 猜测 ( sqllang!x_Selectivity_Like)
M：系数 6（幻数）
D：以字节为单位的平均数据长度（来自统计数据），向下舍入为整数

具体来说，sqllang!CCardUtilSQL7::ProbLikeGuess使用：

Selectivity (S) = G / M * LOG(D)

笔记：

如果介于 1 和 2 之间，LOG(D)则省略该术语。D
如果D小于 1（包括缺失或NULL统计）：
D = FLOOR(0.5 * maximum column byte length)

这种古怪和复杂性是原始 CE 的典型特征。

在问题示例中，平均长度为 5（DBCC SHOW_STATISTICS四舍五入后为 5.6154）：

估计 = 10,000 * (0.09 / 6 * LOG(5)) = 241.416

其他示例值：

 D   =使用 S 的公式进行估计
 15 = 406.208
 14 = 395.859
 13 = 384.742
 12 = 372.736
 11 = 359.684
 10 = 345.388
 09 = 329.584
 08 = 311.916
 07 = 291.887
 06 = 268.764
 05 = 241.416
 04 = 207.944
 03 = 164.792
 02 = 150.000（未使用日志）
 01 = 150.000（未使用日志）
 00 = 291.887 (LOG 7) /* FLOOR(0.5 * 15) [15 因为姓氏是 varchar(15)] */

试验台

DECLARE
    @CharLength integer = 5, -- Set length here
    @Counter integer = 1;

CREATE TABLE #T (c1 varchar(15) NULL);

-- Add 10,000 rows
SET NOCOUNT ON;
SET STATISTICS XML OFF;

BEGIN TRANSACTION;
WHILE @Counter <= 10000
BEGIN
    INSERT #T (c1) VALUES (REPLICATE('X', @CharLength));
    SET @Counter = @Counter + 1;
END;
COMMIT TRANSACTION;

SET NOCOUNT OFF;
SET STATISTICS XML ON;

-- Test query
DECLARE @Like varchar(15);
SELECT * FROM #T AS T 
WHERE T.c1 LIKE @Like;

DROP TABLE #T;

Joe Obbish · Answer 2 · 2016-10-28T15:34:55+08:00

我使用旧版 CE 在 SQL Server 2014 上进行了测试，也没有得到 9% 作为基数估计。我在网上找不到任何准确的东西，所以我做了一些测试，找到了一个适合我尝试过的所有测试用例的模型，但我不能确定它是否完整。

在我找到的模型中，估计值来自表中的行数、过滤列的统计信息的平均键长度，有时还有过滤列的数据类型长度。有两种不同的公式用于估计。

如果 FLOOR(average key length) = 0，则估计公式会忽略列统计信息并根据数据类型长度创建估计值。我只用 VARCHAR(N) 进行了测试，因此 NVARCHAR(N) 可能有不同的公式。这是 VARCHAR(N) 的公式：

（行估计）=（表中的行）*（-0.004869 + 0.032649 * log10（数据类型的长度））

这非常适合，但并不完全准确：

x 轴是数据类型的长度，y 轴是具有 100 万行的表的估计行数。

如果您没有关于该列的统计信息，或者如果该列有足够的 NULL 值以将平均键长度驱动到 1 以下，则查询优化器将使用此公式。

例如，假设您有一个包含 150k 行的表，并且对 VARCHAR(50) 进行了过滤，并且没有列统计信息。行估计预测为：

150000 * (-0.004869 + 0.032649 * log10(50)) = 7590.1 行

SQL来测试它：

CREATE TABLE X_CE_LIKE_TEST_1 (
STRING VARCHAR(50)
);

CREATE STATISTICS X_STAT_CE_LIKE_TEST_1 ON X_CE_LIKE_TEST_1 (STRING) WITH NORECOMPUTE;

WITH
    L0 AS (SELECT 1 AS c UNION ALL SELECT 1),
    L1 AS (SELECT 1 AS c FROM L0 A CROSS JOIN L0 B),
    L2 AS (SELECT 1 AS c FROM L1 A CROSS JOIN L1 B),
    L3 AS (SELECT 1 AS c FROM L2 A CROSS JOIN L2 B),
    L4 AS (SELECT 1 AS c FROM L3 A CROSS JOIN L3 B CROSS JOIN L2 C),
    NUMS AS (SELECT ROW_NUMBER() OVER (ORDER BY (SELECT NULL)) AS NUM FROM L4)  
    INSERT INTO X_CE_LIKE_TEST_1 WITH (TABLOCK) (STRING)
    SELECT TOP (150000) 'ZZZZZ'
    FROM NUMS
    ORDER BY NUM;

DECLARE @LastName VARCHAR(15) = 'BA%'
SELECT * FROM X_CE_LIKE_TEST_1
WHERE STRING LIKE @LastName;

SQL Server 给出的估计行数为 7242.47，这有点接近。

如果 FLOOR（平均密钥长度）>= 1，则使用基于 FLOOR（平均密钥长度）值的不同公式。这是我尝试过的一些值的表格：

1    1.5%
2    1.5%
3    1.64792%
4    2.07944%
5    2.41416%
6    2.68744%
7    2.91887%
8    3.11916%
9    3.29584%
10   3.45388%

如果 FLOOR(average key length) < 6 则使用上表。否则使用以下等式：

(行估计) = (表中的行) * (-0.003381 + 0.034539 * log10(FLOOR(平均密钥长度)))

这个比另一个更适合，但仍然不是完全准确。

x 轴是平均键长度，y 轴是具有 100 万行的表的估计行数。

再举一个例子，假设您有一个包含 10k 行的表，平均键长度为 5.5，用于过滤列的统计信息。行估计为：

10000 * 0.241416 = 241.416 行。

SQL来测试它：

CREATE TABLE X_CE_LIKE_TEST_2 (
STRING VARCHAR(50)
);

WITH
    L0 AS (SELECT 1 AS c UNION ALL SELECT 1),
    L1 AS (SELECT 1 AS c FROM L0 A CROSS JOIN L0 B),
    L2 AS (SELECT 1 AS c FROM L1 A CROSS JOIN L1 B),
    L3 AS (SELECT 1 AS c FROM L2 A CROSS JOIN L2 B),
    L4 AS (SELECT 1 AS c FROM L3 A CROSS JOIN L3 B CROSS JOIN L2 C),
    NUMS AS (SELECT ROW_NUMBER() OVER (ORDER BY (SELECT NULL)) AS NUM FROM L4)  
    INSERT INTO X_CE_LIKE_TEST_2 WITH (TABLOCK) (STRING)
    SELECT TOP (10000) 
    CASE 
      WHEN NUM % 2 = 1 THEN REPLICATE('Z', 5) 
      ELSE REPLICATE('Z', 6)
    END
    FROM NUMS
    ORDER BY NUM;

CREATE STATISTICS X_STAT_CE_LIKE_TEST_2 ON X_CE_LIKE_TEST_2 (STRING) 
WITH NORECOMPUTE, FULLSCAN;

DECLARE @LastName VARCHAR(15) = 'BA%'
SELECT * FROM X_CE_LIKE_TEST_2
WHERE STRING LIKE @LastName;

行估计为 241.416，与您在问题中的情况相匹配。如果我使用表中没有的值，将会出现一些错误。

这里的模型并不完美，但我认为它们很好地说明了一般行为。

LIKE 运算符的基数估计（局部变量）

试验台

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

LIKE 运算符的基数估计（局部变量）

2 个回答

试验台

相关问题