Vocoder提出的问题 -dba

Asked: 2023-07-07 11:02:11 +0800 CST

无需连接即可组合有序 SQL 表

我目前正在探索一些奇怪的做事方式，并且想知道是否有人对以下方法有任何经验。

背景

我有一些 NF3 表和 NF1 源数据。这是其中的一部分：

SourceData : (ProjectID, Manager, City, Status, Cost)

Destination Data:

Projects (ProjectID, ManagerID, CityID, StatusID, Cost)
Managers (ManagerID, ManagerName, [...])
Cities (CityID, CityName, [...])
Status (StatusID, StatusName, [...])

Projects_View (ProjectID, Manager, City, Status, Cost)

期望的结果

对于源数据中的给定行，我想将其插入到项目中，同时根据需要插入到 FK 表 Managers、Cities 和 Status 中。我使用的方法是首先合并到所有 FK 表中，然后在满足 FK 约束后插入到项目中。

在这种方法中我不喜欢的部分是加入 varchar 列来获取 ID - 特别是因为我刚刚在事务的早期合并了这些 ID。例如：

INSERT INTO Projects
  sd.ProjectID
, m.ManagerID
, c.CityID
, s.StatusID
, sd.Cost
FROM SourceData AS sd
LEFT JOIN Managers AS m ON sd.ManagerName = m.ManagerName
LEFT JOIN Cities   AS c ON sd.CityName    = c.CityName
LEFT JOIN Status   AS s ON sd.StatusName  = s.StatusName

显然，我可以在这些 ...Name 列上创建索引，但使用该值来检索键感觉是倒退的。第一个问题-考虑到用例，这种反向索引是好的做法吗？

方法 1 - 输出恒等对

作为替代方案，我的第一遍是使用合并的输出子句将标识值捕获到临时表/表变量中，如下所示：

DECLARE @ManagerOutput TABLE (ProjectID int, ManagerID int);
MERGE INTO [Managers] AS tgt
    USING (SELECT ProjectID, ManagerName FROM SourceData) as src
    ON tgt.ManagerName = src.ManagerName
    WHEN NOT MATCHED THEN  
        INSERT (ManagerName)  
        VALUES (src.ManagerName)
    WHEN MATCHED THEN
        UPDATE SET tgt.ManagerName = tgt.ManagerName
    OUTPUT src.ProjectID, inserted.ManagerID INTO @ManagerOutput;

[...]

INSERT INTO Projects
      sd.ProjectID
    , m.ManagerID
    [...]
    FROM SourceData AS sd
    LEFT JOIN @ManagerOutput AS m ON sd.ProjectID = m.ManagerID
    LEFT JOIN [...]

它确实让我得到了更好的 int->int 连接，但不仅创建表变量有开销，而且在合并中强制将现有 ID 包含在插入的伪表中的假更新也效率低下。我认为对此的试金石是针对大型数据集执行这两种方法，并相互比较它们。

一种奇怪的伎俩？

它确实让我思考是否可以以非正统的方式组合表数据。使用上面方法 1 中的 Merge 语句，这是我的计划：

方法 2 - 哑连接

按项目 ID 订购数据源
订单管理器按项目 ID 输出
将两者毫无逻辑地结合起来
插入项目

第二个问题——这可能吗？- 我知道我可以使用ROW_NUMBER() OVER列创建几个 CTE ，并连接行号，但我确实在寻找一个完全愚蠢的 SELECT 语句，其功能类似于 UNION ALL，只不过不是在末尾附加两个表 -最后，它将它们并排附加。

方法 3 - 哑更新

我最后的想法是（几乎）完全避免连接，而有利于在现有行的顶部插入/更新。我的意思是这样的：

DECLARE 
@ManagerOutput TABLE (ProjectID int, ManagerID int),
@StatusOutput TABLE (ProjectID int, StatusID int),
[...]
@IDs TABLE ( 
        ProjectID   int
    ,   ManagerID   NULL int
    ,   StatusID    NULL int
    [...]
)

INSERT INTO @IDs (ProjectID, ManagerID)
SELECT * FROM @ProjectOutput

其想法是，如果所有表均按 ProjectID 排序，则获取 @StatusOutput.StatusID 的所有行并将它们“粘贴”到 @ID 中现有的 NULL 值上将与 ProjectID 完全关联。

但显然，这并不是一种非常 SQL 的思维方式。我知道我可以通过合并或更新连接来实现这一点，甚至是一些非常愚蠢的事情，比如删除 @ID 的内容，将删除的行与 @StatusOutput 一起输出，然后递归地将它们插入回 @ID 中。没有一种解决方案比一开始就进行连接更好。

第三个问题-是否可以在没有底层逻辑的情况下盲目插入/更新整个列？

我怀疑第二个问题和第三个问题的答案都是——“不，绝对不是。这个功能不存在是为了保护您的数据免受您的侵害。” 但我很想听听任何可能探索过这些可能性的人的意见。与此同时，我将继续制作原型并比较实际可行的方法。

谢谢！

Vocoder

Asked: 2023-07-06 16:10:30 +0800 CST

在 MERGE OUTPUT 子句中输出源列

我有一个相对简单的问题，有一个隐含的答案，但不是一个明确的答案。这是背景。

以下是我正在使用的 3 个模式：

--Source Data: 
ProjectID, ProjectName, CompanyName

--SQL Tables:
Project ( ProjectID [PK\Identity], ProjectName, CompanyID )
Company ( CompanyID [PK\Identity], CompanyName )

Project.CompanyID 是 Company.CompanyID 的外键。一切都很基本。

现在，因为我必须将源数据中的 CompanyName 转换为其规范化形式，所以插入是一个多步骤的过程。第一步是合并到公司：

MERGE INTO [Company] AS tgt
    USING (SELECT CompanyName FROM [Source Data]) as src (CompanyName)
    ON tgt.CompanyName = src.CompanyName
    WHEN NOT MATCHED THEN  
        INSERT (CompanyName)  
        VALUES (src.CompanyName)
    OUTPUT inserted.CompanyID
    ;

简而言之，如果 CompanyName 不在表中，则插入它，并输出标识值。足够明智，但实际上没有用，因为 OUTPUT 子句的结果没有排序。

这是我的方法：

MERGE INTO [Company] AS tgt
    USING (SELECT ProjectID, CompanyName FROM [Source Data]) as src (ProjectID, CompanyName)
    ON tgt.CompanyName = src.CompanyName
    WHEN NOT MATCHED THEN  
        INSERT (CompanyName)  
        VALUES (src.CompanyName)
    OUTPUT inserted.CompanyID, src.ProjectID
    ;

通过使用dml_select_list 中的from_table_name语法元素，我可以（理论上）在 ProjectID 和 CompanyID 之间建立直接关系，并在第二次插入到 Project 表中时使用该关系。

我的问题是——我真的可以信任这种关系吗？

该文档写得不好（https://learn.microsoft.com/en-us/sql/t-sql/queries/output-clause-transact-sql?view=sql-server-ver16）：

列前缀，指定 DELETE、UPDATE 或 MERGE 语句的 FROM 子句中包含的表，该语句用于指定要更新或删除的行。

对于其中一个，我没有使用 FROM 子句，对于两个，我正在插入，而不是更新或删除。它实际上也没有描述列之间的关系。我可以假设或推断 insert.CompanyID 和 src.ProjectID 之间存在直接关联，因为如果没有这种关联，使用 from_table_name 的功能似乎毫无用处。

那么有人知道insert和from_table_name之间的底层连接的确切性质吗？

无需连接即可组合有序 SQL 表

在 MERGE OUTPUT 子句中输出源列

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

Vocoder's questions