AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / dba / 问题 / 251307
Accepted
Morris de Oryx
Morris de Oryx
Asked: 2019-10-17 17:44:38 +0800 CST2019-10-17 17:44:38 +0800 CST 2019-10-17 17:44:38 +0800 CST

tsvector 字段何时可以收回成本?

  • 772

我一直在尝试使用 tsvector 索引进行全文搜索,并发现在 tsvector 类型的列中生成存储向量是一种常见的做法。我们使用的是 Postgres 11.4,但我已经看到这种做法被用作 PG 12 生成列的示例。(比为相同目的使用触发器更简单。)

我的问题是,有什么好处?我在文本字段的 tsvector 上尝试了表达式 GIN 索引,并在存储的 tsvector 上尝试了 GIN 索引。本地大约有 800 万行,我无法测量任何有意义的速度差异。鉴于将向量存储为列和索引需要更多空间,我很好奇是否存在明显的额外成本合理的情况。例如,当您拥有更多角色时。

注意:我们将文本存储在数据库中,因此这不是您在不将源文本吸收到数据库中的情况下索引外部页面/文档/等的设置之一。

postgresql full-text-search
  • 2 2 个回答
  • 272 Views

2 个回答

  • Voted
  1. Best Answer
    jjanes
    2019-10-18T05:10:28+08:002019-10-18T05:10:28+08:00

    如果您使用邻近搜索(例如“phraseto_tsquery”),使用功能索引,它必须将每个匹配候选文档重新解析为 tsvector 并检查它的正确顺序和单词间距。这可能会很慢,尤其是当候选人的数量远高于最终结果的数量时。如果存储了 tsvector,它可以只读取它而不重新解析文档,这要快得多。我认为“ts_headline”等其他高级功能可能处于相同的情况——但我还没有测试过它们。

    即使你只是使用“@@”,我认为如果结果数量的位图不适合“work_mem”,那么它也需要重新解析文档以重新检查“溢出”的候选匹配块. 当然,在这种情况下,增加“work_mem”可能是比添加列更好的选择。

    值得一提的是,如果您使用RUM而不是 GIN,它将解决函数索引上的 phraseto_tsquery 问题。

    • 6
  2. Sir Loris
    2022-04-21T02:22:25+08:002022-04-21T02:22:25+08:00

    有趣的是,我在一个列上创建了一个 GIN 索引,具有一些较大的值(进行文档文本提取,因此如果每行文本页数不多,则为多个段落)。

    查询需要 60+s,具体取决于查询,移动到预先计算的向量列 + 索引显着改善了这些查询,“坏查询”下降到 2-3s。

    基本上我只是按照https://www.postgresql.org/docs/14/textsearch-tables.html“12.2.2。创建索引”的步骤,从功能索引开始,然后在最后过渡到“列+索引”设置。

    所以我强烈推荐任何提出这个问题的人对他们的设置进行基准测试。

    • 0

相关问题

  • 我可以在使用数据库后激活 PITR 吗?

  • 运行时间偏移延迟复制的最佳实践

  • 存储过程可以防止 SQL 注入吗?

  • PostgreSQL 中 UniProt 的生物序列

  • PostgreSQL 9.0 Replication 和 Slony-I 有什么区别?

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目

    • 12 个回答
  • Marko Smith

    如何让sqlplus的输出出现在一行中?

    • 3 个回答
  • Marko Smith

    选择具有最大日期或最晚日期的日期

    • 3 个回答
  • Marko Smith

    如何列出 PostgreSQL 中的所有模式?

    • 4 个回答
  • Marko Smith

    列出指定表的所有列

    • 5 个回答
  • Marko Smith

    如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

    • 4 个回答
  • Marko Smith

    你如何mysqldump特定的表?

    • 4 个回答
  • Marko Smith

    使用 psql 列出数据库权限

    • 10 个回答
  • Marko Smith

    如何从 PostgreSQL 中的选择查询中将值插入表中?

    • 4 个回答
  • Marko Smith

    如何使用 psql 列出所有数据库和表?

    • 7 个回答
  • Martin Hope
    Jin 连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane 如何列出 PostgreSQL 中的所有模式? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh 为什么事务日志不断增长或空间不足? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland 列出指定表的所有列 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney MySQL 能否合理地对数十亿行执行查询? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx 如何监控大型 .sql 文件的导入进度? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison 你如何mysqldump特定的表? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 对 SQL 查询进行计时? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas 如何从 PostgreSQL 中的选择查询中将值插入表中? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 列出所有数据库和表? 2011-02-18 00:45:49 +0800 CST

热门标签

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve