我有一个批量加载过程,可以将数百万条记录加载到仓库中的几个事实表中。这些表主要按时间聚集。非聚集索引适用于如何使用数据来提高性能。
我通常会删除一些非聚集索引,以加快插入速度并减少大数据加载后的索引碎片。然而,随着数据的增长,这个删除和重建的过程会导致大量的时间。
示例:一个表用了 2 个小时在 1 亿多行上应用新的非聚集索引。
同样,如果我保留非聚集索引,它们会在某些情况下将插入量增加 3 到 10 倍,这会迫使您放弃并重建。
虽然删除和重建索引很棒,但随着这些表中数据的增长,它们并没有真正发挥作用。我可以使用哪些选项?我是否应该使用更多内存(目前为 32GB)和 CPU(4 个 vCPU)来扩容服务器?我应该重新考虑我的索引吗?我是否应该找到保留一些索引以进行重组与删除和重建之间的平衡?
(注意:我没有企业版。)
我在想我唯一的选择是带有表分区的企业版,我可以在其中重建每个分区的索引,而不是整个表。
在 4 个 vCPU 时,您使用的是最小的企业版,因此您的成本不会高得令人望而却步。如果您希望在 VM 上实现高可用性,则需要及时了解软件保障。
我建议为此添加内存(假设它在管理程序中可用)并将此 VM 设置为 SQL 版本可以支持的最大值(2008 R2 为 64GB)。这可能是您成本最低的选择。
如果这不能满足您的需求,那么实际上您正在寻找企业版和表分区来管理未被 ETL 操作的数据。
如果大部分数据没有被改变,而只是一次又一次地重新加载,那么这就需要改变,因为它是不可持续的。只加载需要重新加载的数据。