我有 3 个“大”表,它们连接在一对列(两者int
)上。
- 表 1 有约 2 亿行
- 表 2 有约 150 万行
- Table3 有大约 600 万行
每个表在 , 上都有一个聚集索引Key1
,Key2
然后是一列。Key1
具有低基数并且非常偏斜。它总是在WHERE
子句中引用。Key2
条款中从未提及WHERE
。每个连接都是多对多的。
问题在于基数估计。每个连接的输出估计变得更小而不是更大。当实际结果达到数百万时,这导致最终估计为低数百。
我有什么办法可以让行政长官做出更好的估计吗?
SELECT 1
FROM Table1 t1
JOIN Table2 t2
ON t1.Key1 = t2.Key1
AND t1.Key2 = t2.Key2
JOIN Table3 t3
ON t1.Key1 = t3.Key1
AND t1.Key2 = t3.Key2
WHERE t1.Key1 = 1;
我尝试过的解决方案:
- 在 上创建多列统计信息
Key1
,Key2
- 创建大量过滤后的统计信息
Key1
(这很有帮助,但我最终会在数据库中获得数千个用户创建的统计信息。)
屏蔽的执行计划(抱歉屏蔽不好)
在我正在查看的情况下,结果有 900 万行。新的 CE 估计有 180 行;旧版 CE 估计有 6100 行。
这是一个可重现的示例:
DROP TABLE IF EXISTS #Table1, #Table2, #Table3;
CREATE TABLE #Table1 (Key1 INT NOT NULL, Key2 INT NOT NULL, T1Key3 INT NOT NULL, CONSTRAINT pk_t1 PRIMARY KEY CLUSTERED (Key1, Key2, T1Key3));
CREATE TABLE #Table2 (Key1 INT NOT NULL, Key2 INT NOT NULL, T2Key3 INT NOT NULL, CONSTRAINT pk_t2 PRIMARY KEY CLUSTERED (Key1, Key2, T2Key3));
CREATE TABLE #Table3 (Key1 INT NOT NULL, Key2 INT NOT NULL, T3Key3 INT NOT NULL, CONSTRAINT pk_t3 PRIMARY KEY CLUSTERED (Key1, Key2, T3Key3));
-- Table1
WITH Numbers
AS (SELECT TOP (1000000) Number = ROW_NUMBER() OVER(ORDER BY t1.number)
FROM master..spt_values t1
CROSS JOIN master..spt_values t2),
DataSize (Key1, NumberOfRows)
AS (SELECT 1, 2000 UNION
SELECT 2, 10000 UNION
SELECT 3, 25000 UNION
SELECT 4, 50000 UNION
SELECT 5, 200000)
INSERT INTO #Table1
SELECT Key1
, Key2 = ROW_NUMBER() OVER (PARTITION BY Key1, T1Key3 ORDER BY Number)
, T1Key3
FROM DataSize
CROSS APPLY (SELECT TOP(NumberOfRows)
Number
, T1Key3 = Number%(Key1*Key1) + 1
FROM Numbers
ORDER BY Number) size;
-- Table2 (same Key1, Key2 values; smaller number of distinct third Key)
WITH Numbers
AS (SELECT TOP (1000000) Number = ROW_NUMBER() OVER(ORDER BY t1.number)
FROM master..spt_values t1
CROSS JOIN master..spt_values t2)
INSERT INTO #Table2
SELECT DISTINCT
Key1
, Key2
, T2Key3
FROM #Table1
CROSS APPLY (SELECT TOP (Key1*10)
T2Key3 = Number
FROM Numbers
ORDER BY Number) size;
-- Table2 (same Key1, Key2 values; smallest number of distinct third Key)
WITH Numbers
AS (SELECT TOP (1000000) Number = ROW_NUMBER() OVER(ORDER BY t1.number)
FROM master..spt_values t1
CROSS JOIN master..spt_values t2)
INSERT INTO #Table3
SELECT DISTINCT
Key1
, Key2
, T3Key3
FROM #Table1
CROSS APPLY (SELECT TOP (Key1)
T3Key3 = Number
FROM Numbers
ORDER BY Number) size;
DROP TABLE IF EXISTS #a;
SELECT col = 1
INTO #a
FROM #Table1 t1
JOIN #Table2 t2
ON t1.Key1 = t2.Key1
AND t1.Key2 = t2.Key2
WHERE t1.Key1 = 1;
DROP TABLE IF EXISTS #b;
SELECT col = 1
INTO #b
FROM #Table1 t1
JOIN #Table2 t2
ON t1.Key1 = t2.Key1
AND t1.Key2 = t2.Key2
JOIN #Table3 t3
ON t1.Key1 = t3.Key1
AND t1.Key2 = t3.Key2
WHERE t1.Key1 = 1;
需要明确的是,优化器已经知道这是一个多对多连接。如果您强制合并连接并查看估计的计划,您可以看到连接运算符的属性,它告诉您连接是否可以是多对多的。您需要在这里解决的问题是提高基数估计值,大概是这样您就可以为您遗漏的查询部分获得更有效的查询计划。
我要尝试的第一件事是将连接的结果
Object3
放入Object5
临时表中。对于您发布的计划,它只是 51393 行上的一列,因此它几乎不应该占用 tempdb 中的任何空间。您可以在临时表上收集完整的统计数据,仅此一项就足以获得足够准确的最终基数估计。收集完整的统计数据Object1
也可能有所帮助。当您从右到左遍历计划时,基数估计通常会变得更糟。如果这不起作用,
ENABLE_QUERY_OPTIMIZER_HOTFIXES
如果您尚未在数据库或服务器级别启用查询提示,则可以尝试查询提示。Microsoft 将影响计划的 SQL Server 2016 性能修复锁定在该设置后面。其中一些与基数估计有关,因此也许您会很幸运,其中一个修复程序将对您的查询有所帮助。您还可以尝试使用带有FORCE_LEGACY_CARDINALITY_ESTIMATION
查询提示的旧基数估计器。某些数据集可能会使用旧版 CE 获得更好的估计。作为最后的手段,您可以使用 Adam Machanic 的
MANY()
函数通过您喜欢的任何因素手动增加基数估计。我在另一个答案中谈论它,但看起来链接已经死了。如果您有兴趣,我可以尝试挖掘一些东西。SQL Server 统计仅包含统计对象前导列的直方图。因此,您可以创建过滤的统计数据,为 提供值的直方图
Key2
,但仅在具有 的行中Key1 = 1
。在每个表上创建这些过滤的统计信息会修复估计并导致您对测试查询的预期行为:每个新连接都不会影响最终的基数估计(在 SQL 2016 SP1 和 SQL 2017 中都得到了证实)。如果没有这些过滤的统计信息,SQL Server 将采用更基于启发式的方法来估计连接的基数。以下白皮书包含对 SQL Server 使用的一些启发式方法的良好高级描述:使用SQL Server 2014 基数估计器优化您的查询计划。
例如,将
USE HINT('ASSUME_JOIN_PREDICATE_DEPENDS_ON_FILTERS')
提示添加到您的查询将更改连接包含启发式,以假设Key1
谓词和Key2
连接谓词之间存在某种相关性(而不是独立性),这可能对您的查询有益。对于最终的测试查询,此提示将基数估计值从1,175
增加到7,551
,但仍然比20,000
使用过滤统计信息生成的正确行估计值差很多。我们在类似情况下使用的另一种方法是将数据的相关子集提取到#temp 表中。尤其是现在较新版本的 SQL Server不再急切地将 #temp 表写入磁盘,我们使用这种方法取得了很好的效果。您对多对多连接的描述意味着在您的情况下,每个单独的 #temp 表都相对较小(或至少小于最终结果集),因此这种方法可能值得尝试。
一个范围。除了尝试没有任何实际依据。