SQL Server - 使用聚集索引时如何存储数据页

Question

Asked: 2023-12-02 20:41:33 +0800 CST2023-12-02 20:41:33 +0800 CST 2023-12-02 20:41:33 +0800 CST

SQL：如何查看一列中的每个“簇”值并返回在另一列中仅具有一个特定值的值

772

我有一个场景，我正在从 MDM 数据库查询“匹配集群”以获取主记录。每个“集群”都有一个特定的编号，在该集群中，您将有一个“主”记录和所有关联的子记录的行/记录。

我们在世界不同地区开展业务，并有一列名为“域”的列，其参考值范围为“1001”到 1010，代表不同的地区/域。到目前为止，我能够成功做到的是，“我想要来自集群中域“1008”所在的所有匹配集群的主记录。看起来如下（“业务合作伙伴类型”严格来说是调用 1001 = 客户和 1002 = 供应商） - 此查询仅获取具有“1008”的任何集群，但不排除其中存在其他域值：

select * from data.vTest 
where [Match Cluster] in (select distinct [Match Cluster] from data.vTest 
where [Domain] = 1008 and [Match Cluster] is not null and [Business Partner Type] = 1001)
and [Business Partner Type] is null;

上面的内容获取了存在 1008 的任何匹配簇（只是一个示例 - 1001、1002 等的概念相同）。我现在要寻找的是，获取仅存在一个域值的所有集群。示例如下：

然后您将看到以下内容，这是我不想出现的内容 - 任何来自这些“子记录”的域值超过 1 个的匹配集群：

到目前为止我所尝试的方法并没有奏效 - 我得到的最接近的是以下内容，它仍然返回那些包含多个域值的子记录的“主”：

select * from data.vTest 
where [Match Cluster] in (select [Match Cluster] from data.vTest
where [Domain] not in (1001,1002,1003,1004,1005,1006,1007,1009,1010) and [Match Cluster] is not null and [Business Partner Type] = 1001)
and [Business Partner Type] is null;

关于编写此查询的最佳方式有什么想法吗？希望这些照片能帮助我回到我想要实现的目标的大局。请注意，我正在拍摄一个示例的快照，但我的想法是我想查看该列中的所有匹配集群并返回我正在查找的所有结果。谢谢！

1 个回答

Voted

Paul White · Answer 1 · 2023-12-03T01:37:00+08:00

我现在要寻找的是，获取仅存在一个域值的所有集群。

另一种表达你想要的方式是：

选择所有匹配集群
从表或视图
其中匹配簇属性不为空
将具有相同匹配簇的行分组
限制只具有一个不同域值的组（忽略空值）

将其转换为 SQL：

SELECT 
    T.[Match Cluster]
FROM
    data.vTest AS T
WHERE 
    T.[Match Cluster] IS NOT NULL
GROUP BY 
    T.[Match Cluster]
HAVING 
    COUNT_BIG(DISTINCT T.Domain) = 1;

这将为您提供您感兴趣的匹配集群。

您可以使用自联接或IN子句返回具有这些匹配集群值的行，就像您已经做的那样。

还有几种其他方法可以使用[NOT] EXISTS窗口函数来表达相同的查询规范。

您还可以利用这样一个事实：每组一个不同的项目意味着最小值和最大值必须相同：

SELECT 
    T.[Match Cluster]
FROM
    data.vTest AS T
WHERE 
    T.[Match Cluster] IS NOT NULL
GROUP BY 
    T.[Match Cluster]
HAVING 
    MIN(T.Domain) = MAX(T.Domain);

我试图向下一层说“抓住所有只有 1 个域值的匹配集群，并且该域值是特定值，例如“1008”。

为此，请向HAVING子句添加另一个谓词：

SELECT 
    T.[Match Cluster]
FROM
    data.vTest AS T
WHERE 
    T.[Match Cluster] IS NOT NULL
GROUP BY 
    T.[Match Cluster]
HAVING 
    COUNT_BIG(DISTINCT T.Domain) = 1
    AND MIN(T.Domain) = 1008;

或者

SELECT 
    T.[Match Cluster]
FROM
    data.vTest AS T
WHERE 
    T.[Match Cluster] IS NOT NULL
GROUP BY 
    T.[Match Cluster]
HAVING 
    MIN(T.Domain) = MAX(T.Domain)
    AND MIN(T.Domain) = 1008;

您可以在那里使用任何聚合，因为只有一个匹配值。我选择了MIN。需要聚合，因为您要在分组后进行过滤。

你同样可以写：

HAVING 
    MIN(T.Domain) = 1008
    AND MAX(T.Domain) = 1008;

SQL：如何查看一列中的每个“簇”值并返回在另一列中仅具有一个特定值的值

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

SQL：如何查看一列中的每个“簇”值并返回在另一列中仅具有一个特定值的值

1 个回答

相关问题