我可以在使用数据库后激活 PITR 吗？

Question

BinaryVeil

Asked: 2024-02-05 17:49:37 +0800 CST2024-02-05 17:49:37 +0800 CST 2024-02-05 17:49:37 +0800 CST

引用 Postgresql 中同一个表的信息

772

我有一个地理表，其中包含

国家
地区（城市、城镇、村庄、岛屿、群岛）
地点（场地/企业 + 行政区/区/地区），例如 - 大本钟或南华克区。

有关每种地点类型的更多详细信息，我有一个相关表格。
“country_details”表适用于“country”类型的地点，对于位置也类似。

对于像“大本钟”这样的位置，它引用了其所在地的 ID（即伦敦），还引用了国家/地区（可以简单地通过国家/地区的 iso_code）

例子：

 id |     title      |  locality_id  |  country_iso_code |
---------------------------------------------------------|
 1  | United Kingdom |     null      |     UK            |
 2  | London         |     null      |     UK            |
 3  | Big Ben        |      2        |     UK            |
 4  | XYZ District   |      2        |     UK            |

设想

现在，由于为了向客户发送有关大本钟的信息，我还想获取地点名称（伦敦）和国家/地区（英国），看来我唯一的两个选择是：

递归CTE
JOIN 在同一张表上。

然而，一旦我们有一个包含数万条记录的表，它可能会增长到更多（几百万条），除了查询复杂性之外，我认为它也会影响性能。

问题

获得“加入”“伦敦”和“英国”等详细信息的更好选择是什么？
这两种选择都不好吗？最好重新考虑架构设计吗？

表格：

CREATE TABLE places (
    id              int,
    type            smallint, -- ['country', 'locality', 'location']
    sub_type        smallint, -- nullable (city, village, etc.)

    -- names
    title           text,

    -- locality
    locality_name   text,
    locality_id     

    -- country
    country_iso_alpha2 text, -- 'GB'
    country_name       text, -- 'United Kingdom'
    admin_region       text, -- 'England', 'Texas', .. (null for Country)
    
    ...
);

CREATE TABLE country_details(
    place_id      int,
    place_type    smallint NOT NULL CHECK (item_type=1),

    iso_alpha2    text,
    iso_alpha3    text,
    ...

    PRIMARY KEY (place_id, place_type),
    FOREIGN KEY (place_id, place_type) references places (place_id, place_type) ON DELETE CASCADE
);

CREATE TABLE location_details(
    place_id      int,
    place_type    smallint NOT NULL CHECK (item_type=3),

    website            text,
    neighborhood       text,
    formatted_address  text,
    ...

    PRIMARY KEY (place_id, place_type),
    FOREIGN KEY (place_id, place_type) references places (place_id, place_type) ON DELETE CASCADE
);

2 个回答

Voted

J.D. · Answer 1 · 2024-02-05T18:19:36+08:00

看来我唯一的两个选择是：

递归CTE

JOIN 在同一张表上。

如果连接数量固定且数量较少，那么为了简单起见，我会说使用选项 #2 并进行一些自连接。

如果数据的层次深度存在很大的可变性，那么我会说选择选项#1并使用递归 CTE。

然而，一旦我们有一个包含数万条记录的表，它可能会增长到更多（几百万条），除了查询复杂性之外，我认为它也会影响性能。

对于自连接解决方案，几百万行很小，如果索引正确，与几百行的差异可以忽略不计。

对于递归 CTE 解决方案，如果索引正确，它在几百万行上仍然应该具有相当的性能。但您可能会注意到轻微的回归，例如从处理几百行需要不到一秒的时间变成处理几百万行需要几秒钟的时间。

bobflux · Answer 2 · 2024-02-06T02:42:29+08:00

它是一棵树，所以让我们构建一个示例树，每层有 10 个叶子，共 7 个层，大约有 110 万行。

-- create raw data
CREATE UNLOGGED TABLE tree1 (
    id          INTEGER NOT NULL GENERATED BY DEFAULT AS IDENTITY,
    parent_id   INTEGER NULL,
    level       INTEGER NOT NULL
);

INSERT INTO tree1 (id, parent_id, level) VALUES (0,NULL,0);
INSERT INTO tree1 (parent_id,level) SELECT id,level+1 FROM tree1 CROSS JOIN generate_series(1,10) WHERE level=0;
INSERT INTO tree1 (parent_id,level) SELECT id,level+1 FROM tree1 CROSS JOIN generate_series(1,10) WHERE level=1;
INSERT INTO tree1 (parent_id,level) SELECT id,level+1 FROM tree1 CROSS JOIN generate_series(1,10) WHERE level=2;
INSERT INTO tree1 (parent_id,level) SELECT id,level+1 FROM tree1 CROSS JOIN generate_series(1,10) WHERE level=3;
INSERT INTO tree1 (parent_id,level) SELECT id,level+1 FROM tree1 CROSS JOIN generate_series(1,10) WHERE level=4;
INSERT INTO tree1 (parent_id,level) SELECT id,level+1 FROM tree1 CROSS JOIN generate_series(1,10) WHERE level=5;

-- create table with paths
CREATE UNLOGGED TABLE tree (
    id          INTEGER NOT NULL,
    parent_id   INTEGER NULL,
    path        INTEGER[] NOT NULL,
    level       INTEGER GENERATED ALWAYS AS (array_length(path,1)) STORED
);

-- populate
WITH RECURSIVE st AS (
    -- select root
    SELECT t.id, t.parent_id, ARRAY[t.id] path FROM tree1 t WHERE t.id=0
  UNION ALL
    SELECT t.id, t.parent_id, path || t.id 
    FROM tree1 t JOIN st ON (t.parent_id=st.id)
)
INSERT INTO tree (id, parent_id, path) SELECT * FROM st;

DROP TABLE tree1;

ALTER TABLE tree ADD PRIMARY KEY (id);
CREATE INDEX ON tree( parent_id );
CREATE INDEX ON tree( path );

VACUUM ANALYZE tree;

现在让我们得到一片叶子，连同它的所有父母，一直到根部。有几种方法。

使用路径

这就是之前用 RECURSIVE 完成的方式。它工作正常：

-- get one node and parents using path
SELECT * FROM 
  (SELECT unnest(path) id FROM tree WHERE id=1000000) p 
  JOIN tree USING (id);

 Nested Loop  (cost=0.85..92.95 rows=10 width=60) (actual time=0.092..0.152 rows=7 loops=1)
   ->  ProjectSet  (cost=0.43..8.50 rows=10 width=4) (actual time=0.071..0.078 rows=7 loops=1)
         ->  Index Scan using tree_pkey on tree tree_1  (cost=0.43..8.45 rows=1 width=48) (actual time=0.064..0.067 rows=1 loops=1)
               Index Cond: (id = 1000000)
   ->  Index Scan using tree_pkey on tree  (cost=0.43..8.45 rows=1 width=60) (actual time=0.008..0.008 rows=1 loops=7)
         Index Cond: (id = (unnest(tree_1.path)))
 Planning Time: 0.342 ms
 Execution Time: 0.214 ms

与递归一起使用

这是标准选项。它根本不使用路径，因此可以删除此列，除非它用于其他用途。

-- get one node and parents using WITH
WITH RECURSIVE st AS (
    -- select root
    SELECT * FROM tree WHERE id=1000000
  UNION ALL
    SELECT tree.* FROM tree JOIN st ON (tree.id=st.parent_id)
)
SELECT * FROM st;

 CTE Scan on st  (cost=855.96..857.98 rows=101 width=44) (actual time=0.037..0.204 rows=7 loops=1)
   CTE st
     ->  Recursive Union  (cost=0.43..855.96 rows=101 width=60) (actual time=0.035..0.193 rows=7 loops=1)
           ->  Index Scan using tree_pkey on tree  (cost=0.43..8.45 rows=1 width=60) (actual time=0.033..0.036 rows=1 loops=1)
                 Index Cond: (id = 1000000)
           ->  Nested Loop  (cost=0.43..84.65 rows=10 width=60) (actual time=0.019..0.019 rows=1 loops=7)
                 ->  WorkTable Scan on st st_1  (cost=0.00..0.20 rows=10 width=4) (actual time=0.000..0.001 rows=1 loops=7)
                 ->  Index Scan using tree_pkey on tree tree_1  (cost=0.43..8.45 rows=1 width=60) (actual time=0.015..0.015 rows=1 loops=7)
                       Index Cond: (id = st_1.parent_id)
 Planning Time: 0.409 ms
 Execution Time: 0.269 ms

结论：两个选项都非常快，不到1ms。没有明显的赢家。这并不奇怪，因为它们所做的只是通过索引主键获取少量行。

使用 JOIN

我没有考虑它，因为它会在树上施加固定的最大深度，并且它以对树不方便的格式返回行（即具有大量列）。

但是，在我的树示例中，该树中的所有叶子都具有相同的格式。您使用的细分级别没有。

如果您的深度是固定的（国家>地区>位置）并且您确定您永远不需要细分为县、街区、子行政区或其他内容...那么 JOIN 方法就有意义，因为行格式是以前不方便的现在变得方便了，因为您正在三个不同的表中处理三种不同类型的细分，并且它们都有不同的列。

事实上，使用 JOIN 方法，您可以在一次查询中获得整个结果。对于另外两个，一旦从树表的路径中获取了 id，您就必须分别查询三个细分表，这会增加更多的工作。

这会很好地扩展，因为最常命中的行是树的低层，它们几乎总是缓存在 RAM 中。

引用 Postgresql 中同一个表的信息

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

引用 Postgresql 中同一个表的信息

2 个回答

相关问题