我有一个非常大的数据库(数百万行),它已被索引。我从另一个来源收到了我需要在我的数据库中更新的行差异。
我面临的问题是是否有必要再次重新索引整个数据库/表,因为这是一个非常昂贵的过程,我不希望我们的网站在被索引期间停机。有没有更好的方法或方法将部分索引添加到原始索引中,这样我就不需要重新索引所有内容?
我正在使用 postgresql 9.1 作为数据库。
我有一个非常大的数据库(数百万行),它已被索引。我从另一个来源收到了我需要在我的数据库中更新的行差异。
我面临的问题是是否有必要再次重新索引整个数据库/表,因为这是一个非常昂贵的过程,我不希望我们的网站在被索引期间停机。有没有更好的方法或方法将部分索引添加到原始索引中,这样我就不需要重新索引所有内容?
我正在使用 postgresql 9.1 作为数据库。
在更好地理解了你的使用之后,我认为真正的答案是:你不需要 REINDEX。
REINDEX 重新创建整个索引。但是索引是增量维护的;随着行的插入和删除,或使用新的键值更新,索引会更新以反映更改以及以前的版本。
由于 MVCC 的工作方式,当您删除一行时,postgres 无法立即删除该行或索引条目,因为可能存在对该行仍然可见的事务,因此它只是将其标记为已删除。VACUUM 会定期运行以垃圾收集死元组,但索引仍然可以在旧行版本有死条目的地方保留膨胀。因此,对索引列的频繁更新或大量删除会产生许多死索引条目,从而降低索引块的键密度并导致索引操作效率低下。这称为“索引膨胀”。
您可以使用一些检查目录视图并计算膨胀的脚本来检测您是否正在遭受它(可通过先前的链接获得)。如果确实导致索引膨胀,则可能需要定期 REINDEX 操作。在您的用例中,您有几百万行,并且每月删除或修改大约几百行的补丁。在一年的时间里,这种访问模式很可能只触及总行数的一小部分,因此导致的任何索引膨胀都将是微不足道的,并且不能证明 REINDEX 操作的费用是合理的。
Postgres 有一个
CONCURRENTLY
不带锁的关键字。它仍然会很贵,但您可以将桌子留在网上。编辑:
但是,您应该熟悉并发索引的一些注意事项。