AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / dba / 问题 / 318188
Accepted
Rebecca
Rebecca
Asked: 2022-10-14 01:44:07 +0800 CST2022-10-14 01:44:07 +0800 CST 2022-10-14 01:44:07 +0800 CST

为什么我在 STRING_AGG 中的 ORDER BY 并不总是有效?

  • 772
这个问题是从 Stack Overflow迁移过来的,因为它可以在 Database Administrators Stack Exchange 上得到回答。 27 天前迁移 。

我有一个表,其中包含一个记录 ID、一个组 ID(将 1 个或多个记录链接到一个组中)和每个记录的哈希值。

CREATE TABLE HashTable(
    RecordID VARCHAR(255),
    GroupIdentifier VARCHAR(255),
    Hash VARCHAR (255),
    GroupHashList VARCHAR(4000)
)

(我知道这不是一个高效的表,但对于本示例而言,它只是一个临时表)。

我想为每个组生成一个哈希,所以我认为最简单的方法是连接组中每个记录的哈希。RecordID 是唯一的,但这些记录相关的内容不一定是唯一的,因此哈希可能是重复的。这样做的目的是标记完全重复的组,即一个组是该组中的所有记录都是另一个组中所有记录的重复。如果要将组的所有成员识别为重复组,则 GUI 需要组的所有成员具有相同的哈希值。

我正在使用 STRING_AGG 连接组中记录的各个散列,并按散列对它们进行排序,以确保我得到重复组的相同字符串。我实际上并不关心哈希的顺序是什么,只要每次都相同。当我将它作为 SELECT 查询运行时,它工作正常,我可以看到重复组的相同字符串。当我采用相同的 SELECT 查询并将其放入 UPDATE 查询时,排序似乎丢失了。

SELECT STRING_AGG([Hash],';') WITHIN GROUP (ORDER BY [Hash] ASC) 
FROM HashTable
GROUP BY [GroupIdentifier]

这给出了结果(例如一对重复组):

73F294873462B2BA0E930FD16DCCB7;90E749375DF806CB6E3F5CA48FFA38;E44256CE7CFCB971EB679BAC25A697
73F294873462B2BA0E930FD16DCCB7;90E749375DF806CB6E3F5CA48FFA38;E44256CE7CFCB971EB679BAC25A697

当我将相同的代码放入 UPDATE 查询时,它没有正确排序它们:

UPDATE HashTable
SET GroupHashList = c.HashList
FROM HashTable
INNER JOIN (
    SELECT (STRING_AGG([Hash],';') WITHIN GROUP (ORDER BY [Hash] ASC)) AS [HashList],
        [GroupIdentifier]
    FROM HashTable
    GROUP BY [GroupIdentifier]) c
ON c.[GroupIdentifier] = HashTable.[GroupIdentifier]

写入表的相同两组的结果:

73F294873462B2BA0E930FD16DCCB7;90E749375DF806CB6E3F5CA48FFA38;E44256CE7CFCB971EB679BAC25A697
73F294873462B2BA0E930FD16DCCB7;E44256CE7CFCB971EB679BAC25A697;90E749375DF806CB6E3F5CA48FFA38

我错过了什么?

我第一次得到的是

Hash1; Hash2; Hash3
Hash1; Hash2; Hash3

但是当它在 UPDATE 查询中时,我得到

Hash1; Hash2; Hash3
Hash1; Hash3; Hash2

更新查询是按记录 ID 排序的,虽然不知道是不是巧合。(https://dbfiddle.uk/CPG1-z2l)

sql-server
  • 1 1 个回答
  • 1074 Views

1 个回答

  • Voted
  1. Best Answer
    Charlieface
    2022-10-14T08:02:27+08:002022-10-14T08:02:27+08:00

    这似乎是优化器中的一个错误。

    优化器在意识到连接是自连接后,将其转换为窗口聚合。尽管STRING_AGG不能作为窗口聚合使用,但它可以做到这一点。该规则称为GenGbApplySimple,并允许将自联接转换为窗口聚合。到目前为止,这并没有什么特别的问题。

    计划

    粘贴计划

    问题是聚合超过了错误的值。它聚合的是外部值而不是内部值。

    如果你给这两个引用不同的别名,那么仔细检查查询计划就会发现错误。

    STRING_AGG([dbo].[HashTable].[Hash] as [HT1].[Hash],'')
    WITHIN GROUP (ORDER BY [HT2].[Hash])
    

    另一个问题是与该规则一起使用的聚合(例如MIN, MAX, AVG)没有WITHIN GROUP要满足的顺序,因此替换计划没有考虑到它。这似乎STRING_AGG不是为了使用GbApply规则,或者需要进行工作以使其兼容(尊重排序请求)。

    正如您在下面看到的,排序仅按相关列排序GroupIdentifier,而不是按中Hash使用的列排序WITHIN GROUP。

    <OrderBy>
      <OrderByColumn Ascending="1">
        <ColumnReference
          Database="[...]"
          Schema="[dbo]"
          Table="[HashTable]"
          Alias="[HT1]"
          Column="GroupIdentifier">
        </ColumnReference>
      </OrderByColumn>
    </OrderBy>
    

    如果您是sysadmin,则可以使用以下未记录的OPTION.

    OPTION (QUERYRULEOFF GenGbApplySimple)
    

    作为一种解决方法,防止应用此优化的一个选项是使用分组OUTER APPLY

    UPDATE HT1
    SET GroupHashList = C.HashList
    OUTPUT inserted.*
    FROM HashTable AS HT1
    OUTER APPLY
    (
        SELECT
            HashList =
                STRING_AGG(HT2.[Hash], ';')
                    WITHIN GROUP (ORDER BY HT2.[Hash] ASC)
        FROM HashTable AS HT2
        WHERE HT2.GroupIdentifier = HT1.GroupIdentifier
    ) C;
    

    这使您可以使用Stream Aggregate进行非常简单的自加入。

    db<>小提琴


    我强烈建议您将此作为错误提交给Microsoft。

    您也可以留下反馈,但这通常不会导致特定的响应。


    顺便说一句,在编写多表语句时,您应该遵循Conor Cunningham建议的别名规则:UPDATE

    非 ANSI FROM 子句(您在此处使用)具有特定的绑定行为,这些行为可能是您所期望的,也可能不是您所期望的。我建议您首先将 3 个对哈希表的引用命名为不同的别名,然后确保您明确引用了您想要的那个。可能(我猜)它绑定到与您想象的不同的人,并因此为您提供不希望的输出。

    • 22

相关问题

  • SQL Server - 使用聚集索引时如何存储数据页

  • 我需要为每种类型的查询使用单独的索引,还是一个多列索引可以工作?

  • 什么时候应该使用唯一约束而不是唯一索引?

  • 死锁的主要原因是什么,可以预防吗?

  • 如何确定是否需要或需要索引

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目

    • 12 个回答
  • Marko Smith

    如何让sqlplus的输出出现在一行中?

    • 3 个回答
  • Marko Smith

    选择具有最大日期或最晚日期的日期

    • 3 个回答
  • Marko Smith

    如何列出 PostgreSQL 中的所有模式?

    • 4 个回答
  • Marko Smith

    列出指定表的所有列

    • 5 个回答
  • Marko Smith

    如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

    • 4 个回答
  • Marko Smith

    你如何mysqldump特定的表?

    • 4 个回答
  • Marko Smith

    使用 psql 列出数据库权限

    • 10 个回答
  • Marko Smith

    如何从 PostgreSQL 中的选择查询中将值插入表中?

    • 4 个回答
  • Marko Smith

    如何使用 psql 列出所有数据库和表?

    • 7 个回答
  • Martin Hope
    Jin 连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane 如何列出 PostgreSQL 中的所有模式? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh 为什么事务日志不断增长或空间不足? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland 列出指定表的所有列 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney MySQL 能否合理地对数十亿行执行查询? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx 如何监控大型 .sql 文件的导入进度? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison 你如何mysqldump特定的表? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 对 SQL 查询进行计时? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas 如何从 PostgreSQL 中的选择查询中将值插入表中? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 列出所有数据库和表? 2011-02-18 00:45:49 +0800 CST

热门标签

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve