我可以在使用数据库后激活 PITR 吗？

Question

Brandon

Asked: 2021-07-02 15:02:20 +0800 CST2021-07-02 15:02:20 +0800 CST 2021-07-02 15:02:20 +0800 CST

AWS Aurora PostgreSQL Serverless：如何在扩展后预热共享缓冲区？

772

我正在使用AWS Aurora PostgreSQL Serverless自动缩放。看起来好像缩放清除了共享缓冲区，所以当我们想要提高性能时，我们不得不面对 I/O 瓶颈。热身后，我们看到了巨大的性能提升。但是，如果我们在缩放后背靠背运行，第二次运行会更快。虽然我还没有看到任何关于共享缓冲区是否在缩放时被清除的具体信息，但我几乎可以肯定它是。

目前正在使用 Aurora Serverless PostgreSQL 10.14，它支持pg_prewarm扩展。看起来最新的文档表明 prewarm 支持在服务器重新启动后自动预热，但这是无服务器的，并且在文档中似乎没有提到自动预热的版本。

我发现这篇文章在重新启动服务器或从崩溃中恢复时非常适合 PostgreSQL。

如果我们至少可以在缩放后保留较低 ACU 节点的共享缓冲区的内容，那很好。
如果我们可以提前准确地预热需要在内存中的内容，那就太棒了！
有些桌子很大，我们希望有选择地预热我们想要的部分。 pg_prewarm支持first_block和last_block阻止表/索引的数字，但是如何知道要在其中放入什么值？

我们提前知道我们的高峰是什么时候，并在之前告诉 RDS 进行扩展，这样我们就有了一个可以准备的时间窗口。

我有哪些选择？

2 个回答

Voted

Erwin Brandstetter · Answer 1 · 2021-07-02T16:41:59+08:00

_{我的回答不是针对 AWS Aurora PostgreSQL Serverless，而是针对一般的 Postgres。}

简单的替代方案

在您的相关评论中，您暗示您只需要过去 24 小时内的行。所以你可以（不涉及 pg_prewarm）简单地：

SELECT * FROM public.tbl WHERE created_at > now() - interval '24h';

如果created_at被索引，并且谓词具有足够的选择性，则表和索引的相关块被预热。

由于您实际上不想在预热时检索任何数据，因此您可以PERFORM在DO语句中使用：

DO
$$BEGIN
   PERFORM * FROM public.tbl WHERE created_at > now() - interval '24h';
END$$;

一样的效果。
您可以通过以下方式验证成功EXPLAIN (ANALYZE, BUFFERS)：

EXPLAIN (ANALYZE, BUFFERS)
SELECT * FROM public.tbl WHERE created_at > now() - interval '24h';

如果有足够的缓存内存可用，您现在应该只能看到“共享命中”缓冲区。喜欢：

Buffers: shared hit=123456

..你会看到大部分是“读取”，大部分是冷缓存。喜欢：

Buffers: shared hit=143 read=153689

基本上，只需运行预期的查询，缓存就会相应地填充。

`pg_prewarm()`

如果您仍想使用pg_prewarm()块编号，您也可以这样做。允许更多选项，例如选择要填充的缓存（操作系统或数据库缓冲区缓存）或其他一些技巧。必须首先安装附加模块，每个数据库一次：

CREATE EXTENSION pg_prewarm;

仅当您的表（大部分）物理聚集在假定的列上时，使用块号才有意义created_at。只读（主要读取）表就是这种情况，其中具有当前时间戳的新行附加在表的末尾。

您可以从其获取行的块号ctid。看：

如何将 ctid 分解为页码和行号？

要获取小于 24 小时的第一行的块号：

SELECT ctid
FROM   public.tbl
WHERE  created_at > now() - interval '24h'
ORDER  BY created_at
LIMIT  1;

你得到类似的东西(5759,1)。5759是块号。那么你也能：

SELECT pg_prewarm('public.tbl'::regclass, first_block => 5759)

由于我们last_block将其保留为默认值NULL，因此“通过关系中的最后一个块”的所有内容都将被预热。（不过，不是索引。你也可以预热它。）

函数调用使用“混合表示法”（“位置”和“命名表示法”的混合）。看：

具有可变数量输入参数的函数

AdamKG · Answer 2 · 2021-07-02T16:36:00+08:00

AdamKG

2021-07-02T16:36:00+08:002021-07-02T16:36:00+08:00

我认为您在＃1上不走运。PG 11的发行说明指出了该功能的添加。而且我对Aurora不熟悉，对＃2一无所知。

对于#3，这完全取决于“我们想要的部分”是什么。在链接帖子的评论中，您提到对于一个表，您需要最近 24 小时的数据。如果这是一个仅附加表，则获取块号的方法是查询ctid24 小时前的行，然后用于(ctid::text::point)[0]::bigint获取起始块号 - 假设您有时间戳索引。然后只需从该块预取到pg_relation_size('schema.table')/current_setting('block_size').

如果它不是一个只追加的表，你是否可以只预取你想要的部分完全取决于细节；如果是这样，请随时更新问题。

3

AWS Aurora PostgreSQL Serverless：如何在扩展后预热共享缓冲区？

简单的替代方案

`pg_prewarm()`

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

AWS Aurora PostgreSQL Serverless：如何在扩展后预热共享缓冲区？

2 个回答

简单的替代方案

pg_prewarm()

相关问题

`pg_prewarm()`