Alias_Knagg提出的问题 -dba

Asked: 2023-05-24 05:04:46 +0800 CST

这个批量插入可以用#TempTable 优化吗？

我的任务是将行从源表导入到目标表，同时在途中对列进行一些映射。这些行由 GUID 标识，并且只应导入不存在的行。作业需要进行批处理以实现中断和恢复，并避免日志过度增长。这些表位于同一台服务器上的不同数据库中。可能有几千到几百万条记录。

我设法想出的最好的就是这个。

INSERT INTO DST_DB.dbo.dst_table (MyGUID, Col1, Col2, ...) 
SELECT TheirGUID, ColA, ColB, ...
FROM SRC_DB.dbo.src_table AS SRC1 
WHERE SRC1.TheirGUID IN ( 
   SELECT TOP 10000 TheirGUID 
   FROM SRC_DB.dbo.src_table AS SRC0 
   WHERE SRC0.TheirGUID NOT IN (
       SELECT MyGUID FROM DST_DB.dbo.dst_table 
   )  
   ORDER BY SRC0.CreationTime
)

说明
TOP 负责批处理。
两个表都聚集在 CreationTime 上，因此 ORDER BY 只是一种保险。
内层select是为了避免ColA, ColB, ...在TOP生效后才去src_table取数据，其实帮助很大。我也尝试过基于左连接的版本，但这似乎对查询计划和性能影响不大。

问题是当 dst_table 填满时性能会下降很多。它以大约 5000 行/秒的速度开始，并在接近尾声时减慢到 500 行。据我所知，这主要是由于最里面的“leftAntiSemiJoin”涉及越来越多的行。

挑战在于找到一种方法来避免NOT IN (SELECT..重复这样做，同时仍然获得批处理的好处。如果我可以在开始时将所有NOT INGUID 选择到 a 中#TempTable，则无需为每个批次更新它们 -除了实际的批处理。

我知道我可以使用游标循环，但这会使它成为一个逐行操作，我预计它本质上会慢得多。我直觉上想做的是从我的中批量“使用”GUID #TempTable，同时构建我的 INSERT <- SELECT。

有什么办法可以使这项工作吗？

更新
我已经在下面发布了我实际实施的解决方案作为答案。

Alias_Knagg

Asked: 2017-05-10 04:14:37 +0800 CST

如何在需要时正确收缩？

我一直在阅读从停止压缩数据库文件链接的所有文章（和评论）。严重地。现在。我知道收缩是不好的。

我很难弄清楚的是如何在实际需要时正确地做。

背景故事是我继承了这个存档数据库，其中包含一些包含 PDF 的表格，这些表格应该在 5 年后过期，但是从未设置按计划执行此操作的程序。我目前没有行数，但它有几百万，大约 3TB。我估计其中一半将被删除并且永远不会回来。

我一直在与我们的基础架构提供商 DBA 交谈，但我发现他们提供的建议（删除、重建索引然后收缩）非常可疑。我是一名系统顾问而不是 DBA，但这次我似乎可以玩了：-/

Paul Randal 推荐两种方法

1个

创建一个新的文件组

使用 CREATE INDEX … WITH (DROP_EXISTING = ON) ON 语法将所有受影响的表和索引移动到新文件组中，以同时移动表并从中删除碎片

删除您无论如何要缩小的旧文件组（如果它是主文件组，则将其缩小）

不幸的是，我无法访问只有 SSMS 的实际服务器，无论如何这都超出了我的舒适范围。我实际上不是DBA ..

2个

DBCC INDEXDEFRAG 或 ALTER INDEX …重组。

是的，但是如何......有相当多的参数可供选择，这似乎经过优化以使大小绝对最小，而不是我需要的是在保持数据库尽可能健康的同时消除膨胀。

换句话说，我不在乎数据库是否增长了一些，它需要空间来运行，并且随着文档产量的逐年增加，它会增长一些，但现在每晚、每周或每月的清除都会控制这一点。

我还应该补充一点，我可以在晚上毫不费力地使这个数据库脱机。

这个批量插入可以用#TempTable 优化吗？

如何在需要时正确收缩？

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

Alias_Knagg's questions