SQL Server - 使用聚集索引时如何存储数据页

Question

Asked: 2017-03-03 21:20:23 +0800 CST2017-03-03 21:20:23 +0800 CST 2017-03-03 21:20:23 +0800 CST

仅选择超集

772

我有两个表（以及一个非聚集索引）可以使用以下命令创建：

CREATE TABLE GroupTable
(
  GroupKey int NOT NULL PRIMARY KEY, 
  RecordCount int NOT NULL,
  GroupScore float NOT NULL
);

CREATE TABLE RecordTable
(
  RecordKey varchar(10) NOT NULL, 
  GroupKey int NOT NULL,
  PRIMARY KEY(RecordKey, GroupKey)
);

CREATE UNIQUE INDEX ixGroupRecord ON RecordTable(GroupKey, RecordKey);

虽然从技术上讲，我的桌子略有不同，而且我加入了其他几张桌子，但这很适合我的情况。

我想选择所有GroupKeys不是另一个子集的GroupKey。
对于给定的超集，我想获取其GroupScore所有子集（包括其自身）的最大值。
在 a包含与anotherGroupKey完全相同的情况下，只有其中一个被抓取（哪个并不重要）。RecordKeysGroupKey(s)GroupKeys
任何与另一个GroupKey完全相同的对象也将具有相同的.RecordKeysGroupKey(s)GroupScore
非相关GroupKeys也可以有相同的分数。

下面是一个例子来说明我在问什么：

              GroupTable                          RecordTable

GroupKey    RecordCount   GroupScore         RecordKey    GroupKey
------------------------------------         ---------------------
  1              3            6.2                A          1
  29             2            9.8                A          29
  95             3            6.2                A          95
  192            4            7.1                A          192
                                                 B          1
                                                 B          29
                                                 B          95
                                                 B          192
                                                 C          1
                                                 C          95
                                                 D          192
                                                 E          192

我希望输出如下：

GroupKey    RecordCount    GroupScore
-------------------------------------
  1              3             9.8
  192            4             9.8

GroupTable大约有 7500 万行，RecordTable大约有 11500 万行；但是，在连接和WHERE谓词之后，给定的一天往往有大约 20k 行。

如果这个问题微不足道，我深表歉意，但出于某种原因，我真的很难解决这个问题。

1 个回答

Voted

Jack Douglas · Answer 1 · 2017-03-04T04:08:34+08:00

我希望输出如下：

 GroupKey    RecordCount    GroupScore
 -------------------------------------
   1              3             9.8
   192            4             7.1

使用相关子查询是获得所需输出的一种方法。

在一个 GroupKey 包含与另一个 GroupKey 完全相同的 RecordKeys 的情况下，那么只会抓取这些 GroupKeys 中的一个（哪个并不重要）。

当有匹配项时，我将返回具有最低 GroupKey 的组，但这是任意的，因为你说这无关紧要。

测试数据：

INSERT INTO RecordTable(RecordKey,GroupKey)
VALUES ('A',1)
     , ('A',29)
     , ('A',95)
     , ('A',192)
     , ('B',1)
     , ('B',29)
     , ('B',95)
     , ('B',192)
     , ('C',1)
     , ('C',95)
     , ('D',192)
     , ('E',192);

INSERT INTO GroupTable(GroupKey,RecordCount,GroupScore)
VALUES (1,3,6.2)     -- ABC
     , (29,2,9.8)    -- AB
     , (95,3,6.2)    -- ABC
     , (192,4,7.1);  -- ABDE
GO

询问：

SELECT GroupKey
     , RecordCount
     , GroupScore = ( SELECT max(GroupScore)
                      FROM GroupTable g2 
                      WHERE ( SELECT count(*)
                              FROM ( SELECT RecordKey
                                     FROM RecordTable
                                     WHERE GroupKey=g1.GroupKey
                                     UNION
                                     SELECT RecordKey
                                     FROM RecordTable
                                     WHERE GroupKey=g2.GroupKey ) z
                            )=g1.RecordCount )
FROM GroupTable g1
WHERE NOT EXISTS ( SELECT *
                   FROM GroupTable g3
                   WHERE ( SELECT count(*)
                           FROM ( SELECT RecordKey
                                  FROM RecordTable 
                                  WHERE GroupKey=g1.GroupKey 
                                  UNION
                                  SELECT RecordKey 
                                  FROM RecordTable 
                                  WHERE GroupKey=g3.GroupKey ) z )=g3.RecordCount
                         AND ( g3.RecordCount>g1.RecordCount 
                               OR ( g3.RecordCount=g1.RecordCount 
                                    AND g3.GroupKey<g1.GroupKey ) ) );
GO

GroupScoreSELECT 中的子查询仅从作为该 ('g1') 组子集的那些组中获取最高值。它通过计算RecordKey'g1' 集和每个 'g2' 集的 's 的 UNION 来实现这一点。如果 UNION 大于 'g1' 集合，则RecordKey'g2' 集合中必须至少有一个没有对应RecordKey'g1' 集合，因此 'g2' 集合不是子集，不应考虑这一排。

在 WHERE 子句中，有两种情况需要考虑进行过滤。RecordKey在任何一种情况下，仅当所有“g1”也存在于“g3”集中时，“g1”集才会被过滤；并且此检查是通过再次计算联合来实现的（根据 SELECT 子句）。

这两种情况是：① 'g1' 集合有更少RecordKey的 s（g3.RecordCount>g1.RecordCount; 在这种情况下我们过滤），以及 ② 'g1' 集合与 'g3' 集合相同（g3.RecordCount=g1.RecordCount; 在这种情况下我们任意选择具有降低GroupKey）

输出：

/*
|GroupKey|RecordCount|GroupScore|
|-------:|----------:|---------:|
|       1|          3|       9.8|
|     192|          4|       9.8|
*/

dbfiddle在这里

仅选择超集

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

仅选择超集

1 个回答

相关问题