我可以在使用数据库后激活 PITR 吗？

Question

Leon

Asked: 2025-03-23 18:27:01 +0800 CST2025-03-23 18:27:01 +0800 CST 2025-03-23 18:27:01 +0800 CST

为什么所有 Postgresql 工作者都在等待一个进程？

772

我们正在使用PostgreSql-13作为核心服务器，遇到了性能瓶颈。

硬件包括2个CPU（AMD EPYC9754，每个128核256线程），128GB内存，硬件RAID0包括2 * 4T SSD（Samsung990Pro）。

我认为 PG 服务器未能充分发挥硬件的潜力。

在我在这里问这个问题之前，我已经做了以下事情：

检查我的 SQL 查询（准确使用主键，没有序列扫描）；
确认我的程序运行正确（我虽然用 Python 和 C++ 编写了相同的逻辑，但都运行得很慢）；
配置我的PG服务器使用HugePage（我总共配置了80GB的HugePage内存，并允许PG服务器使用64GB作为shared_buffers）；
增加每个 PG worker 的内存限制( work_mem，temp_buffers，...)；
增加并行工作者的数量( max_worker_processes，max_parallel_workers_per_gather，max_parallel_workers，...)；
打开force_parallel_mode；
降低 io 成本和 cpu 成本 cfg( random_page_cost=1.01, cpu_tuple_cost=0.0025, cpu_index_tuple_cost=0.001,...)；
最大default_statistics_target为1000；
禁用复制；
启动32或64个进程并行连接到服务器，并使用不同的主键查询同一张表的不同行。
所有查询都是只读的，并且测试期间没有插入/更新/DDL 操作；

我的期望是：

PG服务器至少使用50%的CPU/内存资源；
没有任何单个进程阻塞其他查询；
总吞吐量基本上随着我分配给 PG 服务器的资源量线性增加（也许我很天真？）；

我的测试：

表定义：

CREATE TABLE IF NOT EXISTS ob_lots(
    t_stamp INT8 NOT NULL,
    trd_sec INT4 NOT NULL,
    o_level INT2 NOT NULL,
    i_olots INT4 NOT NULL,
    f_olots FLOAT4 NULL,
CONSTRAINT prk_ob_lots PRIMARY KEY( t_stamp, o_level ) );

查询：

SELECT f_olots, t_stamp, trd_sec FROM ob_lots
WHERE t_stamp BETWEEN $1 AND $2
ORDER BY t_stamp DESC, o_level DESC
LIMIT 4096;

测试程序：启动我的程序的多个实例，使用上述查询 SQL 并行随机查询上述表格中的行。当客户端数量从 2 个增加到 4 个，或从 4 个增加到 8 个，或从 8 个增加到 16 个时，我们确实观察到总吞吐量每次都几乎翻倍。但从 16、32 或更高时，总吞吐量从未改变。

SQL解释：

Gather  (cost=1000.28..1002.41 rows=1 width=18) (actual time=6.840..9.232 rows=0 loops=1)
Workers Planned: 1
Workers Launched: 1
Single Copy: true
Buffers: shared hit=8
->  Limit  (cost=0.28..2.31 rows=1 width=18) (actual time=0.033..0.033 rows=0 loops=1)
        Buffers: shared hit=8
        ->  Index Scan Backward using prk_ob_lots_sc5555 on ob_lots_sc5555  (cost=0.28..2.31 rows=1 width=18) (actual time=0.031..0.031 rows=0 loops=1)
            Index Cond: ((t_stamp >= 123) AND (t_stamp <= 456))
            Buffers: shared hit=8
Planning:
Buffers: shared hit=109
Planning Time: 0.759 ms
Execution Time: 9.274 ms

以下是我觉得奇怪的事情：

有一个 PG 进程使用了几乎 100% 的单个 CPU 核心，其他进程的使用率都很少；
测试期间没有io、没有交换，并且大量内存/CPU/io 资源处于空闲状态。似乎所有其他工作进程都在等待主进程（我猜是主进程占用了 100% CPU）PG 进程，从而导致瓶颈；
测试数据库使用了大约 4GB 的磁盘空间，因此足够小以至于可以完全由 PG 保存在内存中。事实上，正如我们所观察到的，根本没有 io 操作；

它在做什么？为什么所有工作进程都在等待单个进程？

这是我的 PG conf 的主要部分（我只列出我更改的行）：

最大连接数 = 2048

共享缓冲区 = 64GB

huge_pages = 开启

临时缓冲区 = 256MB

最大准备事务数 = 256

工作内存 = 256MB

维护工作内存 = 16GB

autovacuum_work_mem = -1

dynamic_shared_memory_type = posix

有效 io 并发 = 1000

维护io并发性 = 1000

最大工作进程数 = 256

最大并行维护工作者数 = 256

每个聚集的最大并行工作者数 = 256

parallel_leader_participation = on

最大并行工作者数 = 256

fsync = off

同步提交 = off

全页写入 = 关闭

wal_compression = on

wal_buffers = -1

wal_writer_delay = 10000ms

wal_writer_flush_after = 1GB

提交延迟 = 100000

commit_siblings = 128

检查点超时 = 1d

最大wal大小=128GB

min_wal_size = 32GB

检查点完成目标 = 1.0

checkpoint_flush_after = 0

检查点警告 = 0

最大发送者数 = 0

seq_page_cost = 1.0

随机页面成本 = 1.01

cpu_tuple_cost = 0.0025

cpu_index_tuple_cost = 0.001

CPU 操作成本 = 0.00125

有效缓存大小 = 64GB

默认统计目标 = 1000

force_parallel_mode = on

自动清理 = 开启

top和的输出如下iotop：

顶部 - 16:38:16 启动 4:09，2 个用户，平均负载：14.16、9.14、3.97

任务：总计 1581 个，正在运行 2 个，正在休眠 1573 个，已停止 0 个，僵尸 6 个

%Cpu：3.5 us、4.3 sy、0.0 ni、92.1 id、0.0 wa、0.0 hi、0.1 si、0.0 st

GiB 内存：总计 125.6，可用 34.6，已使用 82.9，缓冲/缓存 9.1

GiB 交换：总计 1.0，可用 1.0，已使用 0.0。42.6 可用内存

进程号 USER PR NI VIRT RES SHR SWAP %CPU %MEM TIME+ COMMAND

31159 leon 20 0 4654.2米 105.1米 12.5米 0.0米 S 152.7 0.1 7:09.93 负载

3186 postgres 0 -20 66.7g 18.6m 16.2m 0.0m R 99.5 0.0 5:03.16 postgres #它是主服务器吗？

3192 postgres 0 -20 80.4m 6.8m 3.6m 0.0m S 8.2 0.0 0:24.97 postgres

32218 postgres 0 -20 66.7g 13.5米 9.9米 0.0米 S 5.8 0.0 0：12.90 postgres

31217 postgres 0 -20 66.7g 13.4m 9.9m 0.0m S 5.3 0.0 0:12.74 postgres

31234 postgres 0 -20 66.7g 13.5米 9.9米 0.0米 S 5.3 0.0 0：12.74 postgres

（很多很多的 postgres 进程...）

总磁盘读取量：0.00 B/s | 总磁盘写入量：0.00 B/s

当前磁盘读取：0.00 B/s | 当前磁盘写入：0.00 B/s

TID  PRIO  USER     DISK READ DISK WRITE>    COMMAND

  1 be/4 root        0.00 B/s    0.00 B/s init

  2 be/4 root        0.00 B/s    0.00 B/s [kthreadd]

  3 be/0 root        0.00 B/s    0.00 B/s [rcu_gp]

  4 be/0 root        0.00 B/s    0.00 B/s [rcu_par_gp]

  5 be/0 root        0.00 B/s    0.00 B/s [slub_flushwq]

1 个回答

Voted

Laurenz Albe · Answer 1 · 2025-03-24T20:27:26+08:00

我认为你的想法是错误的。像这样的单个查询永远不会让一台强大的机器忙碌。一个 CPU 核心正在处理，其他核心只是待命。由于并行性的开销，将工作负载分布在多个核心上实际上会使处理速度变慢。

从你的执行计划中你可以看出：

所有实际工作都是在向后索引扫描中完成的，该扫描耗时 0.03 毫秒。
由于您开启了该功能，查询仅花费了 9 毫秒force_parallel_mode（您永远不应该这样做 — 此参数仅对 PostgreSQL 开发和回归测试有用）。启动其他进程、创建共享内存段以交换数据和其他开销消耗了所有时间。

如果要在 PostgreSQL 中使用短语句进行并行处理，则必须打开多个数据库会话并在每个会话上运行语句。实际上，您必须在应用程序中进行并行化。

对于批量加载到 PostgreSQL，请考虑使用COPY而不是INSERT。如果需要使用INSERT，请使用准备好的语句。

大多数参数更改都是毫无意义甚至有害的：

最大连接数 = 2048

这些太多了。不要超出核心数量。不要让机器超载。
共享缓冲区 = 64GB

这无助于加载数据。
huge_pages = 开启

那个还可以。
临时缓冲区 = 256MB

除非您使用临时表，否则毫无用处。
最大准备事务数 = 256

这是一个邪恶的设置，可能会使你的数据库崩溃。除非绝对必要，否则不要启用准备好的事务。
工作内存 = 256MB

好的，但是这些小语句毫无意义。
维护工作内存 = 16GB

如果你有足够的 RAM，那就可以了。
有效 io 并发 = 1000

可能太高了。
维护io并发性 = 1000

可能太高了。
最大工作进程数 = 256

如果您的语句很少，那么就毫无意义。
最大并行维护工作者数 = 256

太高了。
每个聚集的最大并行工作者数 = 256

太高了。
最大并行工作者数 = 256

可能太高了。
fsync = off

这会导致数据损坏。请勿这么做。
同步提交 = off

这是可以的，但只有当您有微小交易时才是必要的，这是批量加载的反模式。
全页写入 = 关闭

这会导致数据损坏。请勿这么做。
wal_compression = on

这是可以的，但只有当写入的 WAL 量比 CPU 利用率更严重时才有用。
wal_writer_delay = 10000ms

无意义。
wal_writer_flush_after = 1GB

不会有什么区别。
提交延迟 = 100000

这会使你的交易变得非常缓慢。不要这么做。
commit_siblings = 128

这简直太荒谬了。
检查点超时 = 1d

增加这个参数实际上可能是一个好主意，但一天就太多了。
最大wal大小=128GB

这实际上是一个有用的设置。
min_wal_size = 32GB

无意义。
检查点完成目标 = 1.0

可能毫无意义，如果延迟下一个检查点可能会造成损害。
checkpoint_flush_after = 0

这会损害性能。不要这么做。
检查点警告 = 0

无意义。
最大发送者数 = 0

无意义。
随机页面成本 = 1.01

如果您有 SSD 或类似产品，那就太好了。
cpu_tuple_cost = 0.0025

别把那事搞乱。
cpu_index_tuple_cost = 0.001

别把那事搞乱。
CPU 操作成本 = 0.00125

别把那事搞乱。
有效缓存大小 = 64GB

好的！
默认统计目标 = 1000

这将损害性能。
force_parallel_mode = on

这将损害性能。

为什么所有 Postgresql 工作者都在等待一个进程？

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

为什么所有 Postgresql 工作者都在等待一个进程？

1 个回答

相关问题