我知道我不应该在每一列上都有一个索引,但我不知道为什么。费用是多少?
我有一个包含大约 400 个表的系统,其中许多表都有日期时间或外键(实际上可能没有外键规则,因为它们并不严格),它们缺少索引。这可能会导致相对简单的查询(例如:跨 3 个具有时间条件和表的主键的表的 3 列)的大量查询时间。
运行有问题的查询的时间花了我 2 多分钟,但是一旦我在时间戳和外键上添加索引,它就会下降到 200 毫秒以下,增加了 6000%。我很想在我有指标的每一列上添加索引,但我知道(从其他人告诉我)过多的索引是不好的。但我在任何地方都找不到为什么!
所以我的问题是:什么是“太多”索引,为什么?
索引从字面上存储数据的副本,按该索引覆盖的字段排序(并自动包含聚集索引键),通常在称为 B-Tree 的数据结构中。在每个表的每个字段上创建索引实际上会使数据库中的数据量增加三倍(大约)。
除了额外的空间需求外,将数据写入表(特别是磁盘)也需要时间。对于表上的每个索引,只要将记录插入表中,就必须进行额外的写入操作才能持久化数据。索引过多可能会影响数据库的整体写入速度,并导致不必要的争用和表锁定时间过长。
JOIN
当索引覆盖(定义)作为查询谓词( 、、WHERE
或HAVING
子句)的一部分的字段时,索引也是最佳的。例如,如果您有以下谓词WHERE Field1 = 91 AND Field2 = 13
,但您定义了索引,(Field3, Field1, Field2)
那么您的索引不会涵盖您的WHERE
子句,并且如果用于为该查询提供数据,则可能不会被使用或不会执行,因为它无法当索引第一次按不在谓词中的字段排序时,查找查询中使用的字段。您在索引定义中指定字段的顺序定义了它所涵盖的谓词,因为它是 B-Tree 中对哪些字段进行排序的顺序。因此,仔细设计索引以尽可能覆盖查询非常重要。通常这不是通过为每个单独的字段创建索引,并且通常有太多字段来合理地为可能在谓词中使用的每个可能组合创建索引。
或者,最好确定最慢、最繁重和最常用的查询和谓词,然后测试索引是否是改进它们的解决方案。没有固定数量的索引适用于每个人,但我喜欢作为起点的一般经验法则就是我所说的 5 x 5 法则。5 x 5 规则是尽量为每个表创建不超过 5 个索引,并且每个索引定义尽量不包含超过 5 个列。当然,这是一个软规则,在某些情况下跨越这些阈值是可以的。
您不仅需要在每一列上都有一个索引。MySQL 查询通常每个表只使用一个索引,但您的条件中可能有多个术语。所以你可以创建多列索引。如果您想主动创建您可能需要的每个索引,您将需要至少 2 n 个索引用于n列。
但它甚至比这更糟糕。索引中列的顺序很重要。即,
(a, b, c)
可能需要列上的索引,但(a, c, b)
对于不同的查询也可能需要上的索引。因此,您不仅需要列的每种组合,还可能需要列的每种排列。您需要的索引数量大约为n阶乘。那时,CREATE TABLE 语句本身会变得非常大,更不用说保留这么多索引所需的存储空间了。
显然,这些索引中的大多数都不需要,因为您实际上不需要优化无限多种查询。您只需要优化您在应用程序代码中的查询。
我们可以类比在 PHP 类(或任何你喜欢的编程语言)中设计方法。为什么不创建每个可能的类方法,以及所有可能的参数集,以防万一?为什么不创建每种数据类型的类成员变量?当然,这很荒谬。您只需要创建将在该类中使用的类方法和成员。
我不喜欢尝试定义关于多少索引太多的规则。您需要尽可能多的索引来优化您拥有的查询。如果你有太多,它将占用大量存储空间,并且 DML 语句将变得更加昂贵(插入/更新/删除必须更改表中每个索引中的条目)。
不过,由您决定权衡是否适合您的应用程序。这就是为什么您作为专业软件工程师获得报酬的原因,因为您具有衡量成本效益比的分析技能,并且您可以判断在特定情况下是否值得。