我可以在使用数据库后激活 PITR 吗？

Question

Asked: 2023-12-21 19:06:58 +0800 CST2023-12-21 19:06:58 +0800 CST 2023-12-21 19:06:58 +0800 CST

使用最长匹配 ltree 路径连接表

772

给定一个像这样的表：

路径（l树）
ABC
ab
A
德
F

我将如何编写一个查询来返回给定输入的最长匹配 ltree 路径？

例如：

(input) => expected output

(a.b.c) => a.b.c
(d.e.f) => d.e
(f.g.h) => f
(a.b)   => a.b

我希望能够使用它以一种高性能的方式将一个包含 ltree 路径的表与另一个表中的“最长匹配路径”连接起来。因此，给定一个包含上面示例中所有行的表inputs，我如何将其连接到表中以获得具有“最长匹配”的行？

1 个回答

Voted

bobflux · Answer 1 · 2023-12-22T03:55:35+08:00

构建测试数据...

-- main table
CREATE UNLOGGED TABLE tree( path ltree NOT NULL );
INSERT INTO tree SELECT (a)::text::ltree FROM generate_series(1,32) a;
INSERT INTO tree SELECT (a||'.'||b)::ltree FROM generate_series(1,32) a, generate_series(1,32) b;
INSERT INTO tree SELECT (a||'.'||b||'.'||c)::ltree FROM generate_series(1,32) a, generate_series(1,32) b, generate_series(1,32) c;
INSERT INTO tree SELECT (a||'.'||b||'.'||c||'.'||d)::ltree FROM generate_series(1,32) a, generate_series(1,32) b, generate_series(1,32) c, generate_series(1,32) d;
CREATE INDEX path_gist_idx ON tree USING GIST (path);
VACUUM ANALYZE subs;

-- table for join
CREATE UNLOGGED TABLE other( path ltree NOT NULL );
INSERT INTO other SELECT path||'foo' FROM tree WHERE random()<0.001;

对于表“other”中的约 1000 行，将搜索表“tree”中包含 1M 行的最长匹配路径。

第一次尝试：窗口函数。140ms，无限制。它需要在输出中进行一些重复数据删除。

SELECT o.path, first_value(t.path) over (partition by o.path ORDER BY nlevel(t.path) DESC) FROM other o JOIN tree t ON (t.path @> o.path) LIMIT 10;
      path      | first_value
----------------+-------------
 1.1.18.17.foo  | 1.1.18.17
 1.1.18.17.foo  | 1.1.18.17
 1.1.18.17.foo  | 1.1.18.17
 1.1.18.17.foo  | 1.1.18.17
 1.1.28.28.foo  | 1.1.28.28
 1.1.28.28.foo  | 1.1.28.28
 1.1.28.28.foo  | 1.1.28.28
 1.1.28.28.foo  | 1.1.28.28
 1.13.15.26.foo | 1.13.15.26
 1.13.15.26.foo | 1.13.15.26

第二次尝试：可以使用 ltree 比较，如 '1.2.3'::ltree>'1.2'::ltree，因此使用 max() 只会返回最长的一个。不幸的是 max() 没有为 ltree 实现，但你可以添加它。但我们始终可以使用 LATERAL，它的优点是可以在需要时返回整行。

SELECT o.path, foo.path FROM other o 
LEFT JOIN LATERAL (
    SELECT path FROM tree t 
    WHERE t.path @> o.path
    ORDER BY t.path DESC LIMIT 1
) foo ON true;

这个排序速度更快，为 80 毫秒，因为排序是在嵌套循环内移动的，而且它是 top-1 堆排序。因此每行需要 80μs 才能找到最长的路径。

 Nested Loop Left Join  (cost=10255.64..10850500.55 rows=1058 width=80) (actual time=33.828..79.518 rows=1058 loops=1)
   ->  Seq Scan on other o  (cost=0.00..20.58 rows=1058 width=44) (actual time=0.017..0.094 rows=1058 loops=1)
   ->  Limit  (cost=10255.64..10255.64 rows=1 width=36) (actual time=0.043..0.043 rows=1 loops=1058)
         ->  Sort  (cost=10255.64..10282.70 rows=10824 width=36) (actual time=0.043..0.043 rows=1 loops=1058)
               Sort Key: t.path DESC
               Sort Method: top-N heapsort  Memory: 25kB
               ->  Bitmap Heap Scan on tree t  (cost=616.30..10201.52 rows=10824 width=36) (actual time=0.040..0.041 rows=4 loops=1058)
                     Recheck Cond: (path @> o.path)
                     Heap Blocks: exact=4197
                     ->  Bitmap Index Scan on path_gist_idx  (cost=0.00..613.59 rows=10824 width=0) (actual time=0.039..0.039 rows=4 loops=1058)
                           Index Cond: (path @> o.path)
 Planning Time: 0.232 ms
 JIT:
   Functions: 7
   Options: Inlining true, Optimization true, Expressions true, Deforming true
   Timing: Generation 2.195 ms, Inlining 9.237 ms, Optimization 17.678 ms, Emission 6.752 ms, Total 35.862 ms
 Execution Time: 81.884 ms

第三个：设置返回功能。

CREATE OR REPLACE FUNCTION unnest_ltree( path ltree )
RETURNS SETOF ltree
RETURNS NULL ON NULL INPUT
COST 10 ROWS 5
LANGUAGE plpgsql AS $$
BEGIN
WHILE path != '' LOOP
    RETURN NEXT path;
    path := subpath( path, 0, -1 );
END LOOP;
END;
$$;
select unnest_ltree( '1.2.3.4'::ltree );
 unnest_ltree
--------------
 1.2.3.4
 1.2.3
 1.2
 1

SELECT o.path, foo.path FROM other o 
LEFT JOIN LATERAL (
    SELECT path FROM unnest_ltree(o.path) u JOIN tree t ON (t.path=u)
    LIMIT 1
) foo ON true;

结果：29ms，快得多。

然而，它依赖于这样一个事实：postgres 将按照函数返回的顺序使用 unnest_ltree() 中的行，但这是不能保证的。

第四次尝试：手动加入

CREATE OR REPLACE FUNCTION get_closest( _path ltree )
RETURNS tree
RETURNS NULL ON NULL INPUT
LANGUAGE plpgsql AS $$
DECLARE
    myrow tree;
BEGIN
WHILE _path != '' LOOP
    SELECT INTO myrow * FROM tree WHERE path=_path;
    IF FOUND THEN RETURN myrow; END IF;
    _path := subpath( _path, 0, -1 );
END LOOP;
END;
$$;

SELECT get_closest(path) FROM other;

结果：路径上有 gist 索引需要 35 毫秒，路径上有 btree 索引需要 16 毫秒。

然而，既然我在路径列上添加了 btree 索引，第一个查询就会反击。因为路径（o.path）的最长父项（t.path）必须满足 t.path <= o.path，并且由于路径的排序顺序，添加该条件意味着 btree 立即找到目标行，而 gist只是返回所有需要排序的祖先。所以这是最快的选择，但它需要额外的索引。

SELECT o.path, foo.path FROM other o 
LEFT JOIN LATERAL (
    SELECT path FROM tree t 
    WHERE t.path @> o.path AND t.path<=o.path
    ORDER BY t.path DESC LIMIT 1
) foo ON true;

 Nested Loop Left Join  (cost=0.43..5629.18 rows=1058 width=80) (actual time=0.870..11.314 rows=1058 loops=1)
   ->  Seq Scan on other o  (cost=0.00..20.58 rows=1058 width=44) (actual time=0.017..0.097 rows=1058 loops=1)
   ->  Limit  (cost=0.43..5.29 rows=1 width=36) (actual time=0.010..0.010 rows=1 loops=1058)
         ->  Index Only Scan Backward using tree_path_idx on tree t  (cost=0.43..17548.43 rows=3608 width=36) (actual time=0.010..0.010 rows=1 loops=1058)
               Index Cond: (path <= o.path)
               Filter: (path @> o.path)
               Rows Removed by Filter: 2
               Heap Fetches: 0
 Planning Time: 0.310 ms
 Execution Time: 11.400 ms

但是......如果表“其他”更大，会发生什么？让我们尝试一下 500k 行。

CREATE UNLOGGED TABLE other2( path ltree NOT NULL );
INSERT INTO other2 SELECT path||'foo' FROM tree WHERE random()<0.5;

在这种情况下，上述所有方法都会受到影响，大约需要 3.5 秒，因为它们都仅限于嵌套循环计划类型。对于两个表中的大量行，合并联接将是一个更好的选择...不幸的是，postgres 不支持 ASOF JOIN，它会自动执行此操作，但我们总是可以排序！

WITH b AS (SELECT path tp, NULL op FROM tree UNION ALL SELECT NULL, path FROM other2)
SELECT * FROM b ORDER BY COALESCE(tp,op);

     tp      |       op
-------------+-----------------
 1           | Null
 1.1         | Null
 1.1.1       | Null
 1.1.1.1     | Null         -- the row we want
 Null        | 1.1.1.1.foo  -- is just above this one
 1.1.1.10    | Null
 Null        | 1.1.1.10.foo
 1.1.1.11    | Null
 1.1.1.12    | Null
 Null        | 1.1.1.12.foo
 1.1.1.13    | Null
 Null        | 1.1.1.13.foo

由于这使得相关行非常接近（一个总是在另一个之上），因此窗口函数可以对此进行排序。

WITH b AS (SELECT path tp, NULL op FROM tree UNION ALL SELECT NULL, path FROM other2),
c AS (SELECT LAG(tp,1) OVER w tp, op FROM b WINDOW w AS (ORDER BY COALESCE(tp,op)))
SELECT * FROM c WHERE tp @> op;

这不使用任何索引，应该适用于大型表，但在我的测试用例中，它花费的时间与之前的时间大约相同。

使用最长匹配 ltree 路径连接表

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

使用最长匹配 ltree 路径连接表

1 个回答

相关问题