语境:
我们在两台 CentOS 6 服务器上运行 Slony 2.0 和 Postgres 8.4——一台主服务器,一台从服务器。我们的数据库大小约为 30GB,这并不罕见,但我们确实有几个表,每个表都超过 5GB。
最近,我们需要重新构建我们的 Slony 集群。我关闭了 Slony,在主从服务器上恢复了相同的数据库快照,设置了我的 slony.conf 和 slon_tools.conf,启动了 slons,运行slonik_init_cluster | slonik
,然后slonik_create_set 1 | slonik
(我们只有一个复制集),最后slonik_subscribe_set 1 2 | slonik
. 一切看起来都很好,我能够在日志中看到订阅进度。
然后服务器停止响应。我重新启动它,并看到“内核恐慌 - 不同步:内存不足,没有可终止的进程”,它已经杀死了所有它能杀死的东西。
我试过的:
首先,我完全炸毁了数据库,重新运行initdb
,然后再次恢复相同的快照。同样的内核恐慌。然后我把它吹走了,卸载了 Postgres 和 Slony,然后重新安装了它们。我仔细检查了 postgresql.conf 中所有基于内存的设置,它们都处于库存/推荐水平(即shared_buffers
RAM 的 1/4 等)。VACUUM ANALYZE FULL
在初始化 Slony 集群之前,我在数据库上运行了一个。每次都出现相同的结果:内核恐慌,内存不足。
随机/手动配置更改不可能导致这种情况:我们所有的 Postgres 和 Slony 配置都由Puppet管理,并且几个月没有更改。
问题:
为什么会这样?
我们的数据库在过去几个月里呈线性增长(年初约为 23GB,现在是 30GB),每隔一段时间我不得不在这些相同的服务器上重新初始化 Slony 集群,它一直有效美好的。
问题原来是无关紧要的:在 中
/etc/sysctl.conf
,系统的shmmax
值设置为大于可用 RAM 的数量。将它设置为 RAM 的 60%(我们的数据库顾问的建议)解决了这个问题。
为什么以前没有出现这个问题对我来说是个谜。