多租户、多数据库系统中有N个表结构相同的数据库。希望将这些数据库中的一个或多个表复制到 OLAP 数据库中的一个更大的表中,我假设它可以工作。
-使用事务复制-
为发布者处的所有表文章重新创建 PK,包括标识数据库的新添加字段。
将选项“当文章存在时”设置为不删除和使用行过滤器(包括数据库标识符)。
使用唯一数据库标识符为每个表添加行过滤器。
我的问题是,鉴于上述情况,如果为发布者创建新快照,是否会删除订阅者的陈旧数据,并且只针对该发布者?恐怕这就是删除表和重新创建的目的:/
简单来说,如果我有
表A |
---|
数据库ID |
表格辅助 |
如果重新初始化名为 Database007 的发布的新快照。是否会删除 Database007 订阅中的所有数据并为 Database007 重新水化,或者我是否会遇到 PK 违规。
我也一直在研究 CDC,但是,这似乎不支持 N-1 复制方案。另外,请随时抛出任何其他想法。
使用视图
我以前必须解决这个问题,最可靠的方法是复制到不同的表,然后创建一个视图将它们联合在一起。
dbo.Transactions
到LocationA.Transactions
或LocA_dbo.Transactions
。dbo.Transactions
您可以使用此功能将文章重命名为dbo.Transactions_LocationA
.UNION ALL
所有单独表的视图。一些谨慎
在上面的计划中,我建议您确保
SELECT *
出于所有常见原因避免出现在视图中。如果在不同的时间对不同的发布者进行模式更改,则视图可能会从第一个表的时间开始被破坏并被更改,直到最后一个被更改。取而代之的是,显式列出列并仅在架构更改无处不在时才更新视图。在复制到单个表中时,也需要考虑相同的架构更改注意事项。虽然我是那种情况,但它更有可能破坏发送的复制,而不是仅仅破坏视图。
多对一复制
Snapshot 代理的工作方式是它本质上只是自动使用 BCP 从发布者导出并导入到订阅者。默认选项是在您重新初始化发布时截断并重新加载。您也可以更改为使用 delete 而不是 truncate,但这将使用单个未批处理的
DELETE
语句,这可能会导致阻塞和事务日志膨胀。如果您的多个发布者有重叠的 PK,那么您需要像您建议的那样将它们统一化。但是,这可能会影响性能——可能会产生巨大的成本。除了将列添加到每个 PK 的大小考虑之外,如果你的 PK 也是你的聚簇索引,那么 uniquifier 也会包含在每个非聚簇索引中。
您还需要确保将 uniquifier 添加到 PK 定义的末尾,以免破坏现有查询的 SARGability。但是,即使您这样做,您也可能会注意到导致性能下降的查询计划的变化。
查询优化器知道如果
ID
是单列 PK,则ID = @id
最多返回一行。在优化基于集合的查询和连接期间使用相同的基数规则。因此,您可能会开始看到查询计划发生变化,其中 1:1 连接现在被解释为 1:多连接。这可以通过在“旧”PK 上添加唯一索引来进一步缓解。您甚至可以选择将“旧”PK 保留为唯一聚集索引,并将“新”PK 设为非聚集 PK。将来自多个目标的复制添加到单个订阅者表的各种挑战使其成为一个非常具有挑战性的解决方案。它需要对发布者数据库进行重大更改。我不建议使用此选项,除非在绿色领域开发中,在这种情况下可以从一开始就考虑架构和性能。
此外,不可避免地需要重新快照发布者意味着小心地从订阅者中删除适当的行。将 Partitioning 与每个发布者分区一起使用可以在此处提供帮助,但会引入一组不同的复杂性。恕我直言,伪分区是一种更易于长期管理的解决方案。
复制到唯一目标可确保发布者不需要重大更改和测试,并减轻单个 1:many 复制目标中涉及的持续支持负担