我有一张像
FieldA, FieldB, FieldC, FieldD, TheDate, Count
Count
我有一个网络应用程序,它提供了每个字段前几个的仪表板。不想过早优化,这些图表的原始蛮力查询如下:
SELECT TOP 10
FieldA,
SUM(Counts) AS Counts
FROM TheTable
WHERE @StartDate <= TheDate AND TheDate <= @EndDate
GROUP BY FieldA
ORDER BY Counts
其他领域也是如此。但是服务器最终会为每个图表单独选择日期范围,当有大量数据时,系统就会陷入困境。
获取应用程序中的所有数据(一次)然后在本地按列进行汇总似乎是错误的。也许 RDBMS 缓存了很多记录,所以第二个到第四个图表比第一个更有效。
我正在使用 Azure SQL,SQL Server Management Studio 和 DataGrip 都没有建议任何可能有帮助的缺失索引。
对在同一数据上执行多个类似选项的技术有什么想法吗?通常或用于 Azure SQL。谢谢。
您需要显示您当前的索引,以及数据的大小和形状(历史上大约有多少行?,每天/每小时/其他添加多少新?,字段变化多少?,它们多久NULL?),为我们定义了绝对相关的建议。
由于您的大多数查询都遵循所述模式,因此您总是在一系列日期上执行查询,因此至少您需要在
[date]
. 此外,将其作为您的聚集索引[†] 以减少此类范围查询所需的页面访问可能是一个好主意。如果你能负担得起额外的空间(以及你的公共工作集需要额外的 RAM 来避免 IO 颠簸),那么你可能会从在
[date],FieldA
,[date],FieldB
, ...执行排序操作(一旦找到数据,date
它已经在使用的索引中按顺序排列)。如果某些特定字段的查询频率比其他字段高得多,那么也许这样做只是为了帮助对这些字段进行查询,而不是花费资源为所有这些字段进行查询。[†] 即使您有一个唯一的整数作为主键[‡](或其他类似 UUID)
[‡] 并且在此示例中您应该有一个代理键,否则您可能会有其他相同的行t 适合关系模型并可能导致问题
作为旁注:
date
是一个关键字,因为它是一种类型,所以即使在示例中,我也会避免将其用作列名。如果没有提供与大卫提到的数据相关的大量信息,并且可能没有迹象表明缺少索引,将很难猜测。
还有一点我可以猜到为什么没有缺失索引建议是计划优化可能是微不足道的。只是猜测,因为您尚未上传执行计划。如果适用,您可能还想分享它。
您可以根据选择性数据在这些列中的分布方式对相当多的列进行索引。
可能通过使用前导键比作为不等式谓词的日期更有利的方式按顺序索引列
您可以选择并分组作为另一个索引,或者根据看到的指标从第一个开始组合。
因此有很多可能性。根据提供给我们的数据,我们只是不知道什么最有效。