因此,让我先说我无法完全控制我的数据库设计,因此当前系统的许多方面都无法针对这种情况进行更改。
关于我们应该如何重新考虑设计方面的评论可能是正确的,但没有帮助:)
我有一个非常大的表,大约 150 个字段宽和大约 600m 行,它驱动大量进程。这是在数据仓库的情况下,所以我们在计划的加载过程之外没有任何更新/插入,所以它被大量索引。
已决定尝试对该表进行分区,并且我对索引分区表有些担心。我没有任何分区经验,因此感谢任何输入或链接。我无法在 BOL 或 msdn 上找到我所追求的具体内容。
目前,我们聚集在一个我们称之为IncidentKey
avarchar(50)
且不是唯一的字段上 - 我们可以有 1-100 条相同的记录IK
(请不要发表评论)。我们确实经常在旧IncidentKey
记录上获得新数据,因此它也不是连续的。
我知道我需要IncidentDate
在我的聚集索引键中包含我的分区字段 , 才能使分区正常工作。我想它会是IncidentKey, IncidentDate
。
问题是,如果“新”分区中的记录应该在聚集索引中“旧”分区中的记录之前,那么聚集索引的机制将如何在分区表中的 2 部分键上工作?
例如,我有 5 条记录:
IncidentKey Date
ABC123 1/1/2010
ABC123 7/1/2010
ABC123 1/1/2011
XYZ999 1/1/2010
XYZ999 7/1/2010
如果我得到一条新记录,ABC123, 2/1/2011
它将需要在聚集索引BEFORE XYZ999, 1/1/2010
中。这是如何运作的?
我假设有碎片和指针,但我找不到任何关于具有双部分键的分区表上的非分区聚集索引的物理存储和配置的信息。
分区表实际上更像是拼接在一起的单个表的集合。因此,您在 clustering by
IncidentKey
和 partition by的示例中IncidentDate
,假设分区函数将表拆分为两个分区,因此 1/1/2010 位于分区 1 中,而 7/1/2010 位于分区 2 中。数据将在磁盘上布置为:在低级别确实有两个不同的行集。是一个查询处理器,它通过创建将所有行集作为一个整体来查找、扫描和更新所有行集的计划,从而产生单个表的错觉。
任何非聚集索引中的任何行都将具有与其对应的聚集索引键,例如
ABC123,7/1/2010
. 由于聚集索引键始终包含分区键列,因此引擎将始终知道在聚集索引的哪个分区(行集)中搜索该值(在本例中为分区 2)。现在,每当您处理分区时,您必须考虑您的 NC 索引是对齐的(NC 索引的分区与聚集索引完全相同)还是非对齐的(NC 索引是非分区的,或者分区与聚集索引不同) . 非对齐索引更灵活,但它们也有一些缺点:
使用对齐索引解决了这些问题,但也带来了一系列问题,因为这种物理存储设计选项会影响数据模型:
我发现这些影响很少在部署分区的项目开始时被调用,但它们确实存在并且会产生严重的后果。
如果您认为对齐索引是一种罕见或极端的情况,请考虑这一点:在许多情况下,ETL 和分区解决方案的基石是临时表的快速切换。切换操作需要对齐的索引。
哦,还有一件事:我关于外键和将分区列值添加到其他表的连锁反应的所有论点同样适用于joins。
分区索引的特殊指南
您可以重建分区索引的特定分区。
例如