我有一个 Postgres 数据库,其中包含有关网站的信息和一个名为sites
column的表host
。这已经有一个文本模式操作的索引,非常适合从域名的开头进行搜索:WHERE host LIKE 'www.bran%
但对于部分匹配(例如WHERE host LIKE '%.bran%'
导致扫描的部分匹配)来说不是很好。目前大约有 750 万台主机,因此搜索性能已经很明显了。
根据下面的建议,我添加了一个 trigrm 索引(您需要启用扩展才能执行此操作:
create extension pg_trgm;
然后添加一个合适的索引:
CREATE INDEX trgm_idx ON sites USING GIST (host gist_trgm_ops);
与所有索引一样,这可能需要一些时间,具体取决于数据库的大小。
在索引之前,我的查询大约需要 180 秒才能在 750 万个中找到 200 个项目,但这因相关子查询而变得复杂,这似乎使问题复杂化并主导查询,并建议我应该首先考虑优化其他内容,特别是日期索引。
所以比较的结果是:使用 text_ops 索引大约需要 2s,使用 trigram 大约需要 7。我想如果我创建一个只包含主机名相关部分的索引,我可能会更幸运。
这看起来是trigram index的完美用途。只要您的查询不比显示的更短。如果您想搜索“%.br%”,那么可能对您没有什么帮助。