我可以在使用数据库后激活 PITR 吗？

Question

Morris de Oryx

Asked: 2019-10-17 17:44:38 +0800 CST2019-10-17 17:44:38 +0800 CST 2019-10-17 17:44:38 +0800 CST

tsvector 字段何时可以收回成本？

772

我一直在尝试使用 tsvector 索引进行全文搜索，并发现在 tsvector 类型的列中生成存储向量是一种常见的做法。我们使用的是 Postgres 11.4，但我已经看到这种做法被用作 PG 12 生成列的示例。（比为相同目的使用触发器更简单。）

我的问题是，有什么好处？我在文本字段的 tsvector 上尝试了表达式 GIN 索引，并在存储的 tsvector 上尝试了 GIN 索引。本地大约有 800 万行，我无法测量任何有意义的速度差异。鉴于将向量存储为列和索引需要更多空间，我很好奇是否存在明显的额外成本合理的情况。例如，当您拥有更多角色时。

注意：我们将文本存储在数据库中，因此这不是您在不将源文本吸收到数据库中的情况下索引外部页面/文档/等的设置之一。

2 个回答

Voted

jjanes · Answer 1 · 2019-10-18T05:10:28+08:00

Best Answer

jjanes

2019-10-18T05:10:28+08:002019-10-18T05:10:28+08:00

如果您使用邻近搜索（例如“phraseto_tsquery”），使用功能索引，它必须将每个匹配候选文档重新解析为 tsvector 并检查它的正确顺序和单词间距。这可能会很慢，尤其是当候选人的数量远高于最终结果的数量时。如果存储了 tsvector，它可以只读取它而不重新解析文档，这要快得多。我认为“ts_headline”等其他高级功能可能处于相同的情况——但我还没有测试过它们。

即使你只是使用“@@”，~~我认为~~如果结果数量的位图不适合“work_mem”，那么它也需要重新解析文档以重新检查“溢出”的候选匹配块. 当然，在这种情况下，增加“work_mem”可能是比添加列更好的选择。

值得一提的是，如果您使用RUM而不是 GIN，它将解决函数索引上的 phraseto_tsquery 问题。

6

Sir Loris · Answer 2 · 2022-04-21T02:22:25+08:00

Sir Loris

2022-04-21T02:22:25+08:002022-04-21T02:22:25+08:00

有趣的是，我在一个列上创建了一个 GIN 索引，具有一些较大的值（进行文档文本提取，因此如果每行文本页数不多，则为多个段落）。

查询需要 60+s，具体取决于查询，移动到预先计算的向量列 + 索引显着改善了这些查询，“坏查询”下降到 2-3s。

基本上我只是按照https://www.postgresql.org/docs/14/textsearch-tables.html“12.2.2。创建索引”的步骤，从功能索引开始，然后在最后过渡到“列+索引”设置。

所以我强烈推荐任何提出这个问题的人对他们的设置进行基准测试。

0

tsvector 字段何时可以收回成本？

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

tsvector 字段何时可以收回成本？

2 个回答

相关问题