AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / dba / 问题 / 72134
Accepted
Fake Name
Fake Name
Asked: 2014-07-24 00:55:02 +0800 CST2014-07-24 00:55:02 +0800 CST 2014-07-24 00:55:02 +0800 CST

postgres 中的快速汉明距离查询

  • 772

我有一个包含图像感知散列的大型数据库(16M 行)。

我希望能够在合理的时间范围内通过汉明距离搜索行。

目前,据我正确理解这个问题,我认为这里最好的选择是实现BK-Tree的自定义 SP-GiST 实现,但这似乎需要做很多工作,而且我对实际操作仍然很模糊正确实施自定义索引的详细信息。计算汉明距离很容易处理,不过我确实知道 C。

基本上,这里的适当方法是什么?我需要能够在哈希的某个编辑距离内查询匹配项。据我了解,具有相等长度的字符串的 Levenshtein 距离在功能上是汉明距离,因此至少有一些现有的支持我想要的东西,尽管没有明确的方法可以从中创建索引(请记住,我正在查询的值变化。我无法预先计算与固定值的距离,因为这只对那个值有用)。

哈希当前存储为包含哈希的二进制 ASCII 编码的 64 字符字符串(例如“10010101...”),但我可以很容易地将它们转换为 int64。真正的问题是我需要能够相对快速地查询。

似乎可以通过 实现我想要的东西pg_trgm,但我有点不清楚三元组匹配机制是如何工作的(特别是,它返回的相似性度量实际上代表什么?看起来有点像编辑距离)。

插入性能并不重要(计算每一行的哈希值非常昂贵),所以我主要关心搜索。

postgresql index
  • 2 2 个回答
  • 7908 Views

2 个回答

  • Voted
  1. Best Answer
    Fake Name
    2017-11-16T17:43:47+08:002017-11-16T17:43:47+08:00

    摩尔答案!

    好的,我终于花时间编写了一个自定义 PostgreSQL 索引扩展。我使用了SP-GiST 界面。

    这是相当具有挑战性的,主要是因为 Posgres很大。

    无论如何,像往常一样,它在github 上。

    在性能方面,它目前比我对这个问题的另一个答案中的纯内存实现慢约 2-3 倍,但使用起来更方便我会很高兴地吃掉性能损失(实际上,它是 ~50 ms/query - 150 ms/query,仍然很小)。

    • 13
  2. Fake Name
    2015-03-23T09:50:34+08:002015-03-23T09:50:34+08:00

    好吧,我花了一段时间研究编写一个自定义的 postgres C 扩展,最后只写了一个 Cython 数据库包装器,它在内存中维护一个 BK-tree 结构。

    基本上,它维护数据库中 phash 值的内存副本,并且对数据库的所有更新都重播到 BK 树中。

    这一切都在 github 上。它也有很多单元测试。

    在包含 1000 万个哈希值的数据集中查询距离为 4 的项目会触及树中约 0.25%-0.5% 的值,并且需要约 100 毫秒。

    • 12

相关问题

  • 我在索引上放了多少“填充”?

  • PostgreSQL 中 UniProt 的生物序列

  • RDBMS 上的“索引”是什么意思?[关闭]

  • 如何在 MySQL 中创建条件索引?

  • PostgreSQL 9.0 Replication 和 Slony-I 有什么区别?

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目

    • 12 个回答
  • Marko Smith

    如何让sqlplus的输出出现在一行中?

    • 3 个回答
  • Marko Smith

    选择具有最大日期或最晚日期的日期

    • 3 个回答
  • Marko Smith

    如何列出 PostgreSQL 中的所有模式?

    • 4 个回答
  • Marko Smith

    列出指定表的所有列

    • 5 个回答
  • Marko Smith

    如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

    • 4 个回答
  • Marko Smith

    你如何mysqldump特定的表?

    • 4 个回答
  • Marko Smith

    使用 psql 列出数据库权限

    • 10 个回答
  • Marko Smith

    如何从 PostgreSQL 中的选择查询中将值插入表中?

    • 4 个回答
  • Marko Smith

    如何使用 psql 列出所有数据库和表?

    • 7 个回答
  • Martin Hope
    Jin 连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane 如何列出 PostgreSQL 中的所有模式? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh 为什么事务日志不断增长或空间不足? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland 列出指定表的所有列 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney MySQL 能否合理地对数十亿行执行查询? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx 如何监控大型 .sql 文件的导入进度? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison 你如何mysqldump特定的表? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 对 SQL 查询进行计时? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas 如何从 PostgreSQL 中的选择查询中将值插入表中? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 列出所有数据库和表? 2011-02-18 00:45:49 +0800 CST

热门标签

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve