我可以在使用数据库后激活 PITR 吗？

Question

Asked: 2024-10-10 17:34:28 +0800 CST2024-10-10 17:34:28 +0800 CST 2024-10-10 17:34:28 +0800 CST

WHERE A=x DISTINCT ON (B)，在 (A, B, C) 上有复合索引

772

我有一张带有复合索引的巨大表格(A, B, C)。

-- psql (13.16 (Debian 13.16-0+deb11u1), server 14.12)

\d index_a_b_c
         Index "public.index_a_b_c"
  Column  |         Type          | Key? | 
----------+-----------------------+------+
 A        | character varying(44) | yes  |
 B        | numeric(20,0)         | yes  |
 C        | numeric(20,0)         | yes  |
btree, for table "public.table_a_b_c"

我需要所有不同的`B`。

此查询使用运行Index Only Scan，但会扫描所有A匹配项。这不适用于我的情况，因为对于某些As 来说，有数百万行。数百万Index Only Scan行很慢。

EXPLAIN (ANALYZE true) 
SELECT DISTINCT ON ("B") "B"
  FROM "table_a_b_c"
 WHERE "A" = 'astring'

-- Execution time: 0.172993s
-- Unique  (cost=0.83..105067.18 rows=1123 width=5) (actual time=0.037..19.468 rows=67 loops=1)
--  ->  Index Only Scan using index_a_b_c on table_a_b_c  (cost=0.83..104684.36 rows=153129 width=5) (actual time=0.036..19.209 rows=1702 loops=1)
--        Index Cond: (A = 'astring'::text)
--        Heap Fetches: 351
-- Planning Time: 0.091 ms
-- Execution Time: 19.499 ms

如您所见，运行超过 1.7k 行并手动过滤并返回 67 行。从 1.7k 到数百万，20ms 需要几十秒。

我还需要所有最大的`C`s 来表示不同的`B`s。

与1)相同。理论上，Postgres 可以知道可能的B，而不需要检查与匹配的整个列表A。

EXPLAIN (ANALYZE true)
SELECT DISTINCT ON ("B") *
  FROM "table_a_b_c"
 WHERE "A" = 'astring'
 ORDER BY "B" DESC,
          "C" DESC

-- Execution time: 0.822705s 
-- Unique  (cost=0.83..621264.51 rows=1123 width=247) (actual time=0.957..665.927 rows=67 loops=1)
--   ->  Index Scan using index_a_b_c on table_a_b_c  (cost=0.83..620881.69 rows=153130 width=247) (actual time=0.955..664.408 rows=1702 loops=1)
--         Index Cond: (a = 'astring'::text)
-- Planning Time: 0.116 ms
-- Execution Time: 665.978 ms

但例如，这很快：

SELECT * WHERE A="x" AND B=1 ORDER BY C DESC
  UNION
SELECT * WHERE A="x" AND B=2 ORDER BY C DESC
  UNION
....

对于所有可能的Bs。这就像次数循环B。

问题

a)从理论上讲，上的索引不应该(A, B, C)是的超集吗？对于不同来说会非常快。(A, B)(A, B)

Bb) 为什么对于 Postgres 来说很难找到不同的s？

c) 如果没有新索引该如何处理？

1 个回答

Voted

Erwin Brandstetter · Answer 1 · 2024-10-11T10:26:13+08:00

附件 A（来自您的描述）：

对于某些A数据，有数百万行。

附件 B（来自查询计划）：

rows=153129→rows=67

意思是每个不同值都有许多B行。

对每组多行模拟索引跳过扫描

截然不同B：

WITH RECURSIVE rcte AS (
   (
   SELECT B
   FROM   table_abc
   WHERE  A = 'astring'
   ORDER  BY B
   LIMIT  1
   )

   UNION ALL
   SELECT t.B
   FROM   rcte r
   CROSS  JOIN LATERAL (  -- implicit break condition
      SELECT t.B
      FROM   table_abc t
      WHERE  t.A = 'astring'
      AND    t.B > r.B
      ORDER  BY t.B
      LIMIT  1
      ) t
   )
TABLE rcte;

B与最大不同C：

WITH RECURSIVE rcte AS (
   (
   SELECT B, C
   FROM   table_abc
   WHERE  A = 'astring'
   ORDER  BY B DESC, C DESC
   LIMIT  1
   )

   UNION ALL
   SELECT t.B, t.C
   FROM   rcte r
   CROSS  JOIN LATERAL (  -- implicit break condition
      SELECT t.B, t.C
      FROM   table_abc t
      WHERE  t.A = 'astring'
      AND    t.B < r.B
      ORDER  BY t.B DESC, t.C DESC  -- keep in sync to match index!
      LIMIT  1
      ) t
   )
TABLE rcte;

小提琴

现在，仅索引扫描仅获取所需的值。（没有覆盖索引的顺序扫描。）实际上，您得到的是试图通过查询强制获得的结果UNION（应该是UNION ALL这样的）。

应该很快。

有关的：

PostgreSQL 中我的表上的 SELECT DISTINCT 比预期慢

这项技术的细节非常复杂。请参阅：

优化 GROUP BY 查询以检索每个用户的最新行

关于多列索引中的交替排序（ASC/ ）顺序：DESC

`DISTINCT ON`每组仅几行

在这种情况下，您尝试的查询是最佳的。递归 CTE 的大量开销不会带来回报。

小提琴

看：

选择每个 GROUP BY 组中的第一行？

WHERE A=x DISTINCT ON (B)，在 (A, B, C) 上有复合索引

我需要所有不同的`B`。

我还需要所有最大的`C`s 来表示不同的`B`s。

问题

对每组多行模拟索引跳过扫描

`DISTINCT ON`每组仅几行

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

WHERE A=x DISTINCT ON (B)，在 (A, B, C) 上有复合索引

我需要所有不同的B。

我还需要所有最大的Cs 来表示不同的Bs。

问题

1 个回答

对每组多行模拟索引跳过扫描

DISTINCT ON每组仅几行

相关问题

我需要所有不同的`B`。

我还需要所有最大的`C`s 来表示不同的`B`s。

`DISTINCT ON`每组仅几行