我正在使用AWS Aurora PostgreSQL Serverless
自动缩放。看起来好像缩放清除了共享缓冲区,所以当我们想要提高性能时,我们不得不面对 I/O 瓶颈。热身后,我们看到了巨大的性能提升。但是,如果我们在缩放后背靠背运行,第二次运行会更快。虽然我还没有看到任何关于共享缓冲区是否在缩放时被清除的具体信息,但我几乎可以肯定它是。
目前正在使用 Aurora Serverless PostgreSQL 10.14
,它支持pg_prewarm
扩展。看起来最新的文档表明 prewarm 支持在服务器重新启动后自动预热,但这是无服务器的,并且在文档中似乎没有提到自动预热的版本。
我发现这篇文章在重新启动服务器或从崩溃中恢复时非常适合 PostgreSQL。
- 如果我们至少可以在缩放后保留较低 ACU 节点的共享缓冲区的内容,那很好。
- 如果我们可以提前准确地预热需要在内存中的内容,那就太棒了!
- 有些桌子很大,我们希望有选择地预热我们想要的部分。
pg_prewarm
支持first_block
和last_block
阻止表/索引的数字,但是如何知道要在其中放入什么值?
我们提前知道我们的高峰是什么时候,并在之前告诉 RDS 进行扩展,这样我们就有了一个可以准备的时间窗口。
我有哪些选择?
我的回答不是针对 AWS Aurora PostgreSQL Serverless,而是针对一般的 Postgres。
简单的替代方案
在您的相关评论中,您暗示您只需要过去 24 小时内的行。所以你可以(不涉及 pg_prewarm)简单地:
如果
created_at
被索引,并且谓词具有足够的选择性,则表和索引的相关块被预热。由于您实际上不想在预热时检索任何数据,因此您可以
PERFORM
在DO
语句中使用:一样的效果。
您可以通过以下方式验证成功
EXPLAIN (ANALYZE, BUFFERS)
:如果有足够的缓存内存可用,您现在应该只能看到“共享命中”缓冲区。喜欢:
Buffers: shared hit=123456
..你会看到大部分是“读取”,大部分是冷缓存。喜欢:
Buffers: shared hit=143 read=153689
基本上,只需运行预期的查询,缓存就会相应地填充。
pg_prewarm()
如果您仍想使用
pg_prewarm()
块编号,您也可以这样做。允许更多选项,例如选择要填充的缓存(操作系统或数据库缓冲区缓存)或其他一些技巧。必须首先安装附加模块,每个数据库一次:仅当您的表(大部分)物理聚集在假定的列上时,使用块号才有意义
created_at
。只读(主要读取)表就是这种情况,其中具有当前时间戳的新行附加在表的末尾。您可以从其获取行的块号
ctid
。看:要获取小于 24 小时的第一行的块号:
你得到类似的东西
(5759,1)
。5759
是块号。那么你也能:由于我们
last_block
将其保留为默认值NULL
,因此“通过关系中的最后一个块”的所有内容都将被预热。(不过,不是索引。你也可以预热它。)函数调用使用“混合表示法”(“位置”和“命名表示法”的混合)。看:
我认为您在#1上不走运。PG 11的发行说明指出了该功能的添加。而且我对Aurora不熟悉,对#2一无所知。
对于#3,这完全取决于“我们想要的部分”是什么。在链接帖子的评论中,您提到对于一个表,您需要最近 24 小时的数据。如果这是一个仅附加表,则获取块号的方法是查询
ctid
24 小时前的行,然后用于(ctid::text::point)[0]::bigint
获取起始块号 - 假设您有时间戳索引。然后只需从该块预取到pg_relation_size('schema.table')/current_setting('block_size')
.如果它不是一个只追加的表,你是否可以只预取你想要的部分完全取决于细节;如果是这样,请随时更新问题。