Trozdol Asked: 2022-07-26 17:02:57 +0800 CST2022-07-26 17:02:57 +0800 CST 2022-07-26 17:02:57 +0800 CST 一般来说,如果您要索引所有列,这与索引没有列相同吗? 772 标题可能总结了我的问题,但要明确的是,我特别考虑的是 RDB。 我无意这样做,我只是很好奇,并且在尝试谷歌搜索时没有找到明确的答案。 如果它是或不是真的,可以解释原因吗?(如果不是太大的要求) 感谢任何愿意分享对此的见解的人。 index rdbms 1 个回答 Voted Best Answer J.D. 2022-07-26T20:13:45+08:002022-07-26T20:13:45+08:00 索引存储定义索引的字段的数据副本。通常,标准索引使用 B-Tree 数据结构来组织数据的副本。聚集索引(或围绕索引聚集表数据 - 取决于您使用的数据库系统)是一种特殊类型的索引,它不是存储数据的副本,实际上是将表本身组织成 B 树数据结构。 没有索引(更具体地说没有聚集索引)的表存储在堆数据结构中。堆是无序的动态分配的数据集合,极易在数据更改时产生碎片。B-Tree 是一种有序的数据树集合,在更改时不太容易出现碎片问题。有关Heaps 与 B-Trees 的差异和优缺点的更多深入信息,请参阅此 StackOverflow 答案。 回到我的第一段,要记住索引是数据的文字副本(聚集索引除外),这意味着当数据被写入表以将该数据持久保存到每个索引时是有工作的。如果你的表有 100 列,ergo 有 100 个索引,那么当向表中插入一条新记录时,将需要进行 100 次额外的写操作。这显然有一些性能影响(尤其是在锁定和阻塞的情况下)。此外,由于 B-Tree 数据结构用于存储索引数据,因此需要一个O(Log2(n))插入时间来定位 B-Tree 中插入新记录的位置。 没有索引的表只需要进行一次写入操作,由于它是一个存储数据的堆数据结构,插入时间将是O(1)一个非常快的常量插入时间,因为数据只是在最后插入堆的原因在于它是一个无序的数据结构。显然,从写入的角度来看,没有索引是最佳的。 但是从读取的角度来看,堆是有O(n)搜索时间的,因为它们是无序的(基本上是随机排序的)。B-Trees 有一个O(Log2(n))搜索时间,因为它们是有序的,这比 Heaps ( O(n)) 快得多。因此,索引有助于提高定位特定数据记录时的性能,尤其是对于读取查询。 因此,在维护太多索引与没有足够或适当的索引来为您的查询提供服务之间需要权衡性能损失。 正如mustaccio 的类比所指出的那样,在度假时打包所有衣服与不打包衣服肯定是有区别的。假设您带了 5 个手提箱,每个手提箱都存放了不同颜色的衣服,并且您按照尺寸顺序包装了随身携带的每件衣服。你的手提箱是索引。服装是数据。对每个手提箱中的整个衣柜进行分类需要很长时间(许多写入索引)。现在,在你完成这些之后,假设你出去买了一件 5 种不同颜色的新衬衫,因为你非常喜欢那件衬衫。现在,您必须按颜色在每个手提箱中装 5 份该衬衫(再写 5 次)。很多工作。 但是现在假设在度假期间,您决定第一天想要绿色袜子和蓝色牛仔裤。好吧,你的衣服都已经按颜色和尺寸分类了(在这个例子中袜子是最小的,牛仔裤是最大的)。因此,您可以非常快速地找到那些特定的衣服(读取数据)。 相反,如果你有一个手提箱,你只是把所有的衣服都扔进去,那么你收拾衣服会很快(写到堆里)。但是从那个杂乱无章的手提箱中找到那些绿色袜子和蓝色牛仔裤需要很长时间(从堆中读取)。 从表中读取特定记录的频率通常比写入/更新该特定记录的频率更高(尽管并非总是如此,具体取决于您的用例)。所以一些索引(经过仔细考虑)通常在你的表上有意义。
索引存储定义索引的字段的数据副本。通常,标准索引使用 B-Tree 数据结构来组织数据的副本。聚集索引(或围绕索引聚集表数据 - 取决于您使用的数据库系统)是一种特殊类型的索引,它不是存储数据的副本,实际上是将表本身组织成 B 树数据结构。
没有索引(更具体地说没有聚集索引)的表存储在堆数据结构中。堆是无序的动态分配的数据集合,极易在数据更改时产生碎片。B-Tree 是一种有序的数据树集合,在更改时不太容易出现碎片问题。有关Heaps 与 B-Trees 的差异和优缺点的更多深入信息,请参阅此 StackOverflow 答案。
回到我的第一段,要记住索引是数据的文字副本(聚集索引除外),这意味着当数据被写入表以将该数据持久保存到每个索引时是有工作的。如果你的表有 100 列,ergo 有 100 个索引,那么当向表中插入一条新记录时,将需要进行 100 次额外的写操作。这显然有一些性能影响(尤其是在锁定和阻塞的情况下)。此外,由于 B-Tree 数据结构用于存储索引数据,因此需要一个
O(Log2(n))
插入时间来定位 B-Tree 中插入新记录的位置。没有索引的表只需要进行一次写入操作,由于它是一个存储数据的堆数据结构,插入时间将是
O(1)
一个非常快的常量插入时间,因为数据只是在最后插入堆的原因在于它是一个无序的数据结构。显然,从写入的角度来看,没有索引是最佳的。但是从读取的角度来看,堆是有
O(n)
搜索时间的,因为它们是无序的(基本上是随机排序的)。B-Trees 有一个O(Log2(n))
搜索时间,因为它们是有序的,这比 Heaps (O(n)
) 快得多。因此,索引有助于提高定位特定数据记录时的性能,尤其是对于读取查询。因此,在维护太多索引与没有足够或适当的索引来为您的查询提供服务之间需要权衡性能损失。
正如mustaccio 的类比所指出的那样,在度假时打包所有衣服与不打包衣服肯定是有区别的。假设您带了 5 个手提箱,每个手提箱都存放了不同颜色的衣服,并且您按照尺寸顺序包装了随身携带的每件衣服。你的手提箱是索引。服装是数据。对每个手提箱中的整个衣柜进行分类需要很长时间(许多写入索引)。现在,在你完成这些之后,假设你出去买了一件 5 种不同颜色的新衬衫,因为你非常喜欢那件衬衫。现在,您必须按颜色在每个手提箱中装 5 份该衬衫(再写 5 次)。很多工作。
但是现在假设在度假期间,您决定第一天想要绿色袜子和蓝色牛仔裤。好吧,你的衣服都已经按颜色和尺寸分类了(在这个例子中袜子是最小的,牛仔裤是最大的)。因此,您可以非常快速地找到那些特定的衣服(读取数据)。
相反,如果你有一个手提箱,你只是把所有的衣服都扔进去,那么你收拾衣服会很快(写到堆里)。但是从那个杂乱无章的手提箱中找到那些绿色袜子和蓝色牛仔裤需要很长时间(从堆中读取)。
从表中读取特定记录的频率通常比写入/更新该特定记录的频率更高(尽管并非总是如此,具体取决于您的用例)。所以一些索引(经过仔细考虑)通常在你的表上有意义。