如果我做这样的事情:
USE AdventureWorks2012;
GO
EXECUTE sys.sp_cdc_change_job
@job_type = N'cleanup',
@retention = 52494800; -- (100 years)
GO
更改表中的记录永远不会被删除(直到 2119 年)。
另外,每次将新列添加到跟踪表时,我都会应用这样的脚本将数据从旧实例移动到新实例,并且我知道如果有很多记录,可能需要一点是时候将它们复制到新的更改表中了。
因此,我计划将更改历史记录永久保存在这些更改表上,并且永远不要使用清理作业清除这些表。但是文档说:
如果您不定期系统地修剪数据,存储在更改表中的数据将无法管理地增长
如果 CDC 从 2007 年开始就在我的数据库中,最大的常见更改表将在 12 年内包含约 20K 行,源表被复制到另一台服务器,所以,话虽如此:
- “无法控制地增长”对我意味着什么?
- 它会对数据库中的性能或存储产生非常负面的影响吗?也许对复制性能有影响?
- 我在没有清理工作的情况下做 CDC 就可以了吗?或者
- 使用 SSIS 包或运行存储过程的作业将数据复制到报告数据库是更好的选择吗?
- 如果是这样,是否有一种简单的方法可以根据更改表中添加的新列来处理在目标表中创建新列?
- 如果一个更改表中有 100 万行而不是 20K 行,答案是否会改变?
这一切都取决于您的环境。如果您有一个受大量事务处理的数据库(一个具有大量 CRUD 操作的数据库),那么该表的增长速度将比一个更改最少的表增长得更快且更大,从而使其更难管理。
更改表越大,用于在另一个实例上存储数据的 ETL / 更改数据查询函数运行时间就越长(它们会更慢)。您没有说您将这些记录存储在其他地方,或者只是使用更改表作为您的审计终点,但似乎是后者。
如果您的更改表预计不会增长 > 20K 行,您可能不会看到性能负担。
基于这个问题,并且您声明您已经有一个将数据复制到另一台服务器的脚本这一事实,您似乎正在尝试以多种方式捕获更改。您可能想要探索的一种方法是System-Versioned Temporal Tables。这对您来说可能是最简单的路线,并且可以消除 CDC 和您的 SSIS / 自定义脚本,尤其是因为您的 DML 事件似乎很低。当您对源表进行 DDL 更改时,这些表也会发生变化。
因为这将是行数的 50 倍,所以当然,您可以预期针对这些更改表的任何查询的性能会产生不同的结果。