我可以在使用数据库后激活 PITR 吗？

Question

Asked: 2024-05-03 02:52:14 +0800 CST2024-05-03 02:52:14 +0800 CST 2024-05-03 02:52:14 +0800 CST

使用交替排序方向模拟松散索引扫描多列

772

不久前，我问了这个关于在 Postgres 中有效选择列的独特排列的问题。现在我有一个关于如何执行此操作的后续问题，此外还能够使用ASC/DESC跨列的任意组合对任何列进行排序。

该表包含数亿行，虽然我上一个问题的公认答案比传统方法快几个数量级，但无法以临时方式对列进行排序使我无法充分利用此查询（我真的需要它来“分页”，用LIMIT/OFFSET分成小块）。有没有办法做到这一点？上一个答案的作者善意地建议了一种解决方法（更改显式 where 子句的行比较），我尝试过，但它似乎不起作用（或者我误解了它）。

给出以下通用查询：

WITH RECURSIVE cte AS (
   (
   SELECT col1, col2, col3, col4
   FROM   tbl
   ORDER  BY 1,2,3,4
   LIMIT  1
   )
   UNION ALL
   SELECT l.*
   FROM   cte c
   CROSS  JOIN LATERAL (
      SELECT t.col1, t.col2, t.col3, t.col4
      FROM   tbl t
      WHERE (t.col1, t.col2, t.col3, t.col4) > (c.col1, c.col2, c.col3, c.col4)
      ORDER  BY 1,2,3,4
      LIMIT  1
      ) l
   )
SELECT * FROM cte

有没有办法以临时方式对列进行排序，同时保持性能？例如：

ORDER BY by col1 DESC, col2 ASC, col3 ASC, col4 DESC

假设每列都有一个索引，以及所有 4 列的组合索引。

Postgres 版本是 15.4。
该表是只读的，因为数据不能/不会被修改，但会被添加。以下是CREATE TABLE复制我有问题的表的脚本（或多或少）：

CREATE TABLE tbl (id SERIAL primary key, col1 integer NOT NULL, col2 integer NOT NULL, col3 integer NOT NULL, col4 integer NOT NULL);

INSERT INTO tbl (col1, col2, col3, col4) SELECT (random()*1000)::int AS col1, (random()*1000)::int AS col2, (random()*1000)::int AS col3, (random()*1000)::int AS col4 FROM generate_series(1,10000000);

CREATE INDEX ON tbl (col1);
CREATE INDEX ON tbl (col2);
CREATE INDEX ON tbl (col3);
CREATE INDEX ON tbl (col4);
CREATE INDEX ON tbl (col1, col2, col3, col4);

1 个回答

Voted

Erwin Brandstetter · Answer 1 · 2024-05-03T05:45:04+08:00

基本上：不行。
行值比较适用于排序ASCENDNG顺序DESCENDING，但不适用于嵌套字段之间的方向混合。看：

SQL 语法术语“WHERE (col1, col2) < (val1, val2)”

然而 ...

数字类型的解决方法

模拟索引跳跃扫描

请注意，模拟索引跳过扫描仅对于列集有许多重复项的大表有意义。但随后它可能会产生数量级的差异。

基本：

PostgreSQL 中我的表上的 SELECT DISTINCT 比预期慢

对于交替排序顺序，有一些针对具有多列表达式索引的数字数据类型（或任何可以“反转”的类型）的解决方法。col1 DESC基本上，您操作的是(col1 * -1) ASC-ASC作为默认方向，而不是。

对于你的例子：

ORDER BY col1 DESC, col2 ASC, col3 ASC, col4 DESC

CREATE INDEX tbl_1d2a3a4d_idx ON tbl ((col1 * -1), col2, col3, (col4 * -1));  -- !!!

那么查询就变成：

WITH RECURSIVE cte AS (
   (
   SELECT col1, col2, col3, col4
   FROM   tbl
   ORDER  BY (col1 * -1), col2, col3, (col4 * -1)              -- !
   LIMIT  1
   )
   UNION ALL
   SELECT l.*
   FROM   cte c
   CROSS  JOIN LATERAL (
      SELECT t.col1, t.col2, t.col3, t.col4
      FROM   tbl t
      WHERE    ((t.col1 * -1), t.col2, t.col3, (t.col4 * -1))  -- !
             > ((c.col1 * -1), c.col2, c.col3, (c.col4 * -1))  -- !
      ORDER  BY (t.col1 * -1), t.col2, t.col3, (t.col4 * -1)   -- !
      LIMIT  1
      ) l
   )
SELECT *
FROM   cte

小提琴

Postgres 无法使用仅索引扫描，因为col1和col4隐藏在表达式后面。根据许多存储和 RAM 因素，使用覆盖索引可能是值得的。看：

使用 INCLUDE 相对于在 INDEX 中添加列来覆盖索引的优点

CREATE INDEX tbl_1d2a3a4d_covering_idx
ON tbl ((col1 * -1), col2, col3, (col4 * -1)) INCLUDE (col1, col4);  -- !

同样的查询。

但这仍然是“有效选择列的唯一排列”的主题。

分页

您提到了分页（使用LIMIT/ OFFSET）。您可以根据上面的查询进行查询。喜欢：

-- query from above
OFFSET 10000
LIMIT  10;

应该执行正常。对于临时使用来说意义有限。
如果表不是只读的或者当OFFSET+LIMIT变大时，键集分页更有意义。看：

用行号具体化唯一的行

要在大型只读表上重复使用，请考虑使用带有行号的物化视图。在您的情况下，“将添加行”可能有意义，也可能没有意义。您可以使用上面的查询来创建 MV：

CREATE MATERIALIZED VIEW mv_tbl AS
WITH RECURSIVE cte AS (
   (
   SELECT col1, col2, col3, col4
   FROM   tbl
   ORDER  BY (col1 * -1), col2, col3, (col4 * -1)
   LIMIT  1
   )
   UNION ALL
   SELECT l.*
   FROM   cte c
   CROSS  JOIN LATERAL (
      SELECT t.col1, t.col2, t.col3, t.col4
      FROM   tbl t
      WHERE  ((t.col1 * -1), t.col2, t.col3, (t.col4 * -1))
           > ((c.col1 * -1), c.col2, c.col3, (c.col4 * -1))
      ORDER  BY (t.col1 * -1), t.col2, t.col3, (t.col4 * -1)
      LIMIT  1
      ) l
   )
SELECT row_number() OVER () AS rn, *  -- !
FROM   cte;

然后，索引和查询就很简单了：

CREATE INDEX mv_tbl_idx ON mv_tbl (rn);  -- !

SELECT rn, col1, col2, col3, col4
FROM   mv_tbl
WHERE  rn > 10000
ORDER  BY rn
LIMIT  10;

小提琴

所有这一切都有很多细微差别......

使用交替排序方向模拟松散索引扫描多列

数字类型的解决方法

模拟索引跳跃扫描

分页

用行号具体化唯一的行

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

使用交替排序方向模拟松散索引扫描多列

1 个回答

数字类型的解决方法

模拟索引跳跃扫描

分页

用行号具体化唯一的行

相关问题