我在索引上放了多少“填充”？

Question

Fake Name

Asked: 2014-07-24 00:55:02 +0800 CST2014-07-24 00:55:02 +0800 CST 2014-07-24 00:55:02 +0800 CST

postgres 中的快速汉明距离查询

772

我有一个包含图像感知散列的大型数据库（16M 行）。

我希望能够在合理的时间范围内通过汉明距离搜索行。

目前，据我正确理解这个问题，我认为这里最好的选择是实现BK-Tree的自定义 SP-GiST 实现，但这似乎需要做很多工作，而且我对实际操作仍然很模糊正确实施自定义索引的详细信息。计算汉明距离很容易处理，不过我确实知道 C。

基本上，这里的适当方法是什么？我需要能够在哈希的某个编辑距离内查询匹配项。据我了解，具有相等长度的字符串的 Levenshtein 距离在功能上是汉明距离，因此至少有一些现有的支持我想要的东西，尽管没有明确的方法可以从中创建索引（请记住，我正在查询的值变化。我无法预先计算与固定值的距离，因为这只对那个值有用）。

哈希当前存储为包含哈希的二进制 ASCII 编码的 64 字符字符串（例如“10010101...”），但我可以很容易地将它们转换为 int64。真正的问题是我需要能够相对快速地查询。

似乎可以通过实现我想要的东西pg_trgm，但我有点不清楚三元组匹配机制是如何工作的（特别是，它返回的相似性度量实际上代表什么？看起来有点像编辑距离）。

插入性能并不重要（计算每一行的哈希值非常昂贵），所以我主要关心搜索。

2 个回答

Voted

Fake Name · Answer 1 · 2017-11-16T17:43:47+08:00

Best Answer

Fake Name

2017-11-16T17:43:47+08:002017-11-16T17:43:47+08:00

摩尔答案！

好的，我终于花时间编写了一个自定义 PostgreSQL 索引扩展。我使用了SP-GiST 界面。

这是相当具有挑战性的，主要是因为 Posgres很大。

无论如何，像往常一样，它在github 上。

在性能方面，它目前比我对这个问题的另一个答案中的纯内存实现慢约 2-3 倍，但使用起来更方便我会很高兴地吃掉性能损失（实际上，它是 ~50 ms/query - 150 ms/query，仍然很小）。

13

Fake Name · Answer 2 · 2015-03-23T09:50:34+08:00

Fake Name

2015-03-23T09:50:34+08:002015-03-23T09:50:34+08:00

好吧，我花了一段时间研究编写一个自定义的 postgres C 扩展，最后只写了一个 Cython 数据库包装器，它在内存中维护一个 BK-tree 结构。

基本上，它维护数据库中 phash 值的内存副本，并且对数据库的所有更新都重播到 BK 树中。

这一切都在 github 上。它也有很多单元测试。

在包含 1000 万个哈希值的数据集中查询距离为 4 的项目会触及树中约 0.25%-0.5% 的值，并且需要约 100 毫秒。

12

postgres 中的快速汉明距离查询

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

postgres 中的快速汉明距离查询

2 个回答

相关问题