我可以在使用数据库后激活 PITR 吗？

Question

Asked: 2023-09-25 05:19:55 +0800 CST2023-09-25 05:19:55 +0800 CST 2023-09-25 05:19:55 +0800 CST

如何使用索引查询出最大值

772

我有一个表，其中包含几 TB 的事件数据，采用非常简单的（id、bucket_id、data、created_at）模式，并且有一个像这样的索引

create index index_events_on_created_at_and_bucket_id
    on public.events (created_at desc, bucket_id asc);

现在我认为使用如下查询可以快速找到每个存储桶中最新事件的 id：

select max(created_at), bucket_id from events group by bucket_id;

解释输出：

HashAggregate  (cost=170172168.62..170172178.41 rows=979 width=16)
  Group Key: bucket_id
  ->  Index Only Scan using index_events_on_created_at_and_bucket_id on events  (cost=0.70..156003994.34 rows=2833634856 width=16)

它似乎正在使用索引，但是进行索引扫描，而不是像我预期的那样仅仅获取头值。无论哪种方式，它都无法及时完成。我认为这是在查询中使用聚合函数的问题，但我不知道如何修复它。

created_at是否有一个查询可以通过从该索引中获取每个存储桶来返回最新的（即索引中的第一个）时间戳？

1 个回答

Voted

Erwin Brandstetter · Answer 1 · 2023-09-25T12:23:50+08:00

更好的领先索引`bucket_id`

您想要每个桶一行。带前导的 索引bucket_id会更有用。

CREATE INDEX events_bucket_id_created_at_idx ON events (bucket_id, created_at DESC);

有关的：

复合索引也适合第一个字段的查询吗？

bucket_id由于( "rows=979" )中的不同值数量非常少，因此根据我建议的索引，此查询技术应该会为您提供更快的结果：

WITH RECURSIVE cte AS (
   (  -- parentheses required
   SELECT bucket_id, created_at
   FROM   events
   ORDER  BY bucket_id, created_at DESC
   LIMIT 1
   )
   
   UNION ALL
   SELECT e.*
   FROM   cte c
   CROSS  JOIN LATERAL (
      SELECT e.bucket_id, e.created_at
      FROM   events e
      WHERE  e.bucket_id > c.bucket_id
      ORDER  BY e.bucket_id, e.created_at DESC
      LIMIT  1
      ) e
   WHERE  c.bucket_id IS NOT NULL
   )
SELECT * FROM cte
WHERE  bucket_id IS NOT NULL;

它模拟“松散索引扫描”，只为每个不同的行选择“第一”行bucket_id- 正是您正在寻找的内容。

请注意查询中的排序顺序如何与索引精确匹配。

如果表的可见性映射是最新的（即表已被足够清理），您将获得仅索引扫描。应该适用，因为您演示的慢速查询也进行了仅索引扫描。（尽管这是扫描整个索引，而不是仅扫描每个存储桶的前导条目）。有关的：

PostgreSQL 可以使用索引来加速计数（不同）查询吗？

这假设感兴趣的两列都是NOT NULL。否则你必须做更多的事情。

如果您还有bucket一个表，每个相关的一行bucket_id，这甚至会更快一点：

SELECT b.bucket_id, e.created_at
FROM   bucket b
CROSS  JOIN LATERAL (
   SELECT e.created_at
   FROM   events e
   WHERE  e.bucket_id = b.bucket_id
   ORDER  BY e.created_at DESC
   LIMIT  1
   ) e
ORDER  BY b.bucket_id;

看：

卡在索引上`(created_at DESC, bucket_id ASC)`

我们可以使用您评论中的附加元信息：

我知道我关心的所有存储桶都有最近发生的事件

您可以增强上面的查询，但基于此的不同角度应该表现得更好：

SELECT DISTINCT ON (bucket_id)
       bucket_id, created_at
FROM   events
WHERE  created_at > now() - interval '15 minutes'  -- adapt as needed
ORDER  BY bucket_id, created_at DESC;

当仅限于最近行的微小（？）部分时应该更快。Postgres 可以从索引中读取顶部行并将其提供给DISTINCT ON. 关于DISTINCT ON：

选择每个 GROUP BY 组中的第一行？

如何使用索引查询出最大值

更好的领先索引`bucket_id`

卡在索引上`(created_at DESC, bucket_id ASC)`

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

如何使用索引查询出最大值

1 个回答

更好的领先索引bucket_id

卡在索引上(created_at DESC, bucket_id ASC)

相关问题

更好的领先索引`bucket_id`

卡在索引上`(created_at DESC, bucket_id ASC)`