我正在使用 PostgreSQL 9.5,我试图了解如何实现 GiST 索引,其中我有一个表示是索引类型的有损压缩版本。例如,假设我将图像存储在BYTEA
类型中,并且对于索引,我存储了颜色范围(rmin、rmax、gmin、gmax、bmin、bmax),并且我想根据颜色相似性来比较图像——例如,使用一个===
运算符当颜色范围完全相同时返回 true,使我可以方便查询,例如:
SELECT COUNT(*)
FROM icons, avatars
WHERE icon.image === avatar.image AND avatar.id = 123;
其中icons
和avatars
都是image
字段类型为 的表BYTEA
。
查看了实施文档后,看起来这应该是可能的。使用上面的示例情况,我认为我可以执行以下操作:
- 该
union
方法将生成所有条目的边界范围 picksplit
并且penalty
只会尝试最小化范围,类似于 R-Treecompress
将获取 BYTEA 数据并计算颜色范围decompress
将是一个身份函数consistent
(对于===
运算符)如果条目的颜色范围包含内部节点的查询范围,并且仅当范围与叶节点完全匹配时,才会返回 true。
这是正确的方法吗?我不清楚压缩步骤何时发生。例如,consistent
大概在树的不同节点上多次调用。那么这是否意味着每次查询都会重新计算查询数据的颜色范围呢?在索引中,叶节点是否包含图像数据的副本或仅包含其颜色范围?
注意给出的示例仅用于说明目的。我的问题是关于 GiST 中的有损表示,而不是索引图像。
由于您已经存储了
(rmin, rmax, gmin, gmax, bmin, bmax)
image 列的值,因此这些上的 btree 索引涵盖了相等性检查:此查询将使用索引:
当然,您需要另一个索引 on
avatars.id
,或者可能 on(id, rmin, rmax, gmin, gmax, bmin, bmax)
以允许仅索引扫描。正如 Erwin 所说,为此定义自定义要点索引可能有点矫枉过正。
您引用的文档的最后一段告诉您如何缓存计算值(如果需要)。有关工作示例,请参阅 contrib/pg_trgm/trgm_gist.c 中 fn_extra 的使用
这取决于您如何实现压缩功能。该函数可以访问关于它是在叶条目还是非叶条目上调用的知识。如果你只压缩非叶子中的东西,那么叶子就不会被压缩。所以这取决于你。