INNER JOIN 和 OUTER JOIN 有什么区别？

Question

Steven Hibble

Asked: 2017-10-14 14:08:02 +0800 CST2017-10-14 14:08:02 +0800 CST 2017-10-14 14:08:02 +0800 CST

如何在 SQL Server 中提示多对多连接？

772

我有 3 个“大”表，它们连接在一对列（两者int）上。

表 1 有约 2 亿行
表 2 有约 150 万行
Table3 有大约 600 万行

每个表在 , 上都有一个聚集索引Key1，Key2然后是一列。Key1具有低基数并且非常偏斜。它总是在WHERE子句中引用。Key2条款中从未提及WHERE。每个连接都是多对多的。

问题在于基数估计。每个连接的输出估计变得更小而不是更大。当实际结果达到数百万时，这导致最终估计为低数百。

我有什么办法可以让行政长官做出更好的估计吗？

SELECT 1
FROM Table1 t1
     JOIN Table2 t2
       ON t1.Key1 = t2.Key1
          AND t1.Key2 = t2.Key2
     JOIN Table3 t3
       ON t1.Key1 = t3.Key1
          AND t1.Key2 = t3.Key2
WHERE t1.Key1 = 1;

我尝试过的解决方案：

在上创建多列统计信息Key1，Key2
创建大量过滤后的统计信息Key1（这很有帮助，但我最终会在数据库中获得数千个用户创建的统计信息。）

屏蔽的执行计划（抱歉屏蔽不好）

在我正在查看的情况下，结果有 900 万行。新的 CE 估计有 180 行；旧版 CE 估计有 6100 行。

这是一个可重现的示例：

DROP TABLE IF EXISTS #Table1, #Table2, #Table3;
CREATE TABLE #Table1 (Key1 INT NOT NULL, Key2 INT NOT NULL, T1Key3 INT NOT NULL, CONSTRAINT pk_t1 PRIMARY KEY CLUSTERED (Key1, Key2, T1Key3));
CREATE TABLE #Table2 (Key1 INT NOT NULL, Key2 INT NOT NULL, T2Key3 INT NOT NULL, CONSTRAINT pk_t2 PRIMARY KEY CLUSTERED (Key1, Key2, T2Key3));
CREATE TABLE #Table3 (Key1 INT NOT NULL, Key2 INT NOT NULL, T3Key3 INT NOT NULL, CONSTRAINT pk_t3 PRIMARY KEY CLUSTERED (Key1, Key2, T3Key3));

-- Table1 
WITH Numbers
     AS (SELECT TOP (1000000) Number = ROW_NUMBER() OVER(ORDER BY t1.number)
         FROM master..spt_values t1
              CROSS JOIN master..spt_values t2),
     DataSize (Key1, NumberOfRows)
     AS (SELECT 1, 2000 UNION
         SELECT 2, 10000 UNION
         SELECT 3, 25000 UNION
         SELECT 4, 50000 UNION
         SELECT 5, 200000)
INSERT INTO #Table1
SELECT Key1
     , Key2 = ROW_NUMBER() OVER (PARTITION BY Key1, T1Key3 ORDER BY Number)
     , T1Key3
FROM DataSize
     CROSS APPLY (SELECT TOP(NumberOfRows) 
                         Number
                       , T1Key3 = Number%(Key1*Key1) + 1 
                  FROM Numbers
                  ORDER BY Number) size;

-- Table2 (same Key1, Key2 values; smaller number of distinct third Key)
WITH Numbers
     AS (SELECT TOP (1000000) Number = ROW_NUMBER() OVER(ORDER BY t1.number)
         FROM master..spt_values t1
              CROSS JOIN master..spt_values t2)
INSERT INTO #Table2
SELECT DISTINCT 
       Key1
     , Key2
     , T2Key3
FROM #Table1
     CROSS APPLY (SELECT TOP (Key1*10) 
                         T2Key3 = Number
                  FROM Numbers
                  ORDER BY Number) size;

-- Table2 (same Key1, Key2 values; smallest number of distinct third Key)
WITH Numbers
     AS (SELECT TOP (1000000) Number = ROW_NUMBER() OVER(ORDER BY t1.number)
         FROM master..spt_values t1
              CROSS JOIN master..spt_values t2)
INSERT INTO #Table3
SELECT DISTINCT 
       Key1
     , Key2
     , T3Key3
FROM #Table1
     CROSS APPLY (SELECT TOP (Key1) 
                         T3Key3 = Number
                  FROM Numbers
                  ORDER BY Number) size;


DROP TABLE IF EXISTS #a;
SELECT col = 1 
INTO #a
FROM #Table1 t1
     JOIN #Table2 t2
       ON t1.Key1 = t2.Key1
          AND t1.Key2 = t2.Key2
WHERE t1.Key1 = 1;

DROP TABLE IF EXISTS #b;
SELECT col = 1 
INTO #b
FROM #Table1 t1
     JOIN #Table2 t2
       ON t1.Key1 = t2.Key1
          AND t1.Key2 = t2.Key2
     JOIN #Table3 t3
       ON t1.Key1 = t3.Key1
          AND t1.Key2 = t3.Key2
WHERE t1.Key1 = 1;

3 个回答

Voted

Joe Obbish · Answer 1 · 2017-10-14T19:20:46+08:00

需要明确的是，优化器已经知道这是一个多对多连接。如果您强制合并连接并查看估计的计划，您可以看到连接运算符的属性，它告诉您连接是否可以是多对多的。您需要在这里解决的问题是提高基数估计值，大概是这样您就可以为您遗漏的查询部分获得更有效的查询计划。

我要尝试的第一件事是将连接的结果Object3放入Object5临时表中。对于您发布的计划，它只是 51393 行上的一列，因此它几乎不应该占用 tempdb 中的任何空间。您可以在临时表上收集完整的统计数据，仅此一项就足以获得足够准确的最终基数估计。收集完整的统计数据Object1也可能有所帮助。当您从右到左遍历计划时，基数估计通常会变得更糟。

如果这不起作用，ENABLE_QUERY_OPTIMIZER_HOTFIXES如果您尚未在数据库或服务器级别启用查询提示，则可以尝试查询提示。Microsoft 将影响计划的 SQL Server 2016 性能修复锁定在该设置后面。其中一些与基数估计有关，因此也许您会很幸运，其中一个修复程序将对您的查询有所帮助。您还可以尝试使用带有FORCE_LEGACY_CARDINALITY_ESTIMATION查询提示的旧基数估计器。某些数据集可能会使用旧版 CE 获得更好的估计。

作为最后的手段，您可以使用 Adam Machanic 的MANY()函数通过您喜欢的任何因素手动增加基数估计。我在另一个答案中谈论它，但看起来链接已经死了。如果您有兴趣，我可以尝试挖掘一些东西。

Geoff Patterson · Answer 2 · 2017-10-18T07:58:18+08:00

SQL Server 统计仅包含统计对象前导列的直方图。因此，您可以创建过滤的统计数据，为提供值的直方图Key2，但仅在具有的行中Key1 = 1。在每个表上创建这些过滤的统计信息会修复估计并导致您对测试查询的预期行为：每个新连接都不会影响最终的基数估计（在 SQL 2016 SP1 和 SQL 2017 中都得到了证实）。

-- Note: Add "WITH FULLSCAN" to each if you want a perfect 20,000 row estimate
CREATE STATISTICS st_#Table1 ON #Table1 (Key2) WHERE Key1 = 1
CREATE STATISTICS st_#Table2 ON #Table2 (Key2) WHERE Key1 = 1
CREATE STATISTICS st_#Table3 ON #Table3 (Key2) WHERE Key1 = 1

如果没有这些过滤的统计信息，SQL Server 将采用更基于启发式的方法来估计连接的基数。以下白皮书包含对 SQL Server 使用的一些启发式方法的良好高级描述：使用SQL Server 2014 基数估计器优化您的查询计划。

例如，将USE HINT('ASSUME_JOIN_PREDICATE_DEPENDS_ON_FILTERS')提示添加到您的查询将更改连接包含启发式，以假设Key1谓词和Key2连接谓词之间存在某种相关性（而不是独立性），这可能对您的查询有益。对于最终的测试查询，此提示将基数估计值从1,175增加到7,551，但仍然比20,000使用过滤统计信息生成的正确行估计值差很多。

我们在类似情况下使用的另一种方法是将数据的相关子集提取到#temp 表中。尤其是现在较新版本的 SQL Server不再急切地将 #temp 表写入磁盘，我们使用这种方法取得了很好的效果。您对多对多连接的描述意味着在您的情况下，每个单独的 #temp 表都相对较小（或至少小于最终结果集），因此这种方法可能值得尝试。

DROP TABLE IF EXISTS #Table1_extract, #Table2_extract, #Table3_extract, #c
-- Extract only the subset of rows that match the filter predicate
-- (Or better yet, extract only the subset of columns you need!)
SELECT * INTO #Table1_extract FROM #Table1 WHERE Key1 = 1
SELECT * INTO #Table2_extract FROM #Table2 WHERE Key1 = 1
SELECT * INTO #Table3_extract FROM #Table3 WHERE Key1 = 1
-- Now perform the join on those extracts, removing the filter predicate
SELECT col = 1
INTO #c 
FROM #Table1_extract t1
JOIN #Table2_extract t2
    ON t1.Key2 = t2.Key2
JOIN #Table3_extract t3
    ON t1.Key2 = t3.Key2

paparazzo · Answer 3 · 2017-10-18T11:31:18+08:00

paparazzo

2017-10-18T11:31:18+08:002017-10-18T11:31:18+08:00

一个范围。除了尝试没有任何实际依据。

SELECT 1
FROM Table1 t1
     JOIN Table2 t2
       ON t1.Key2 = t2.Key2
      AND t1.Key1 = 1
      AND t2.Key1 = 1
     JOIN Table3 t3
       ON t2.Key2 = t3.Key2
      AND t3.Key1 = 1;

-1

如何在 SQL Server 中提示多对多连接？

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

如何在 SQL Server 中提示多对多连接？

3 个回答

相关问题