我将拥有一个庞大的 PostgreSQL 9.3 数据库,其中包含许多表,每个表的条目数超过 1 亿。该数据库基本上是只读的(一旦我填写了所有必要的表并构建索引,就不再对数据库进行写操作)和单用户访问(从本地主机运行和基准测试多个查询),因为将使用数据库仅用于研究目的。查询将始终在整数 DB 字段上使用 JOIN。
为此,我可能会购买 SSD (256-512GB)。我以前没有将 SSD 用于 DB,所以有什么我应该害怕的吗?我可以将整个数据库放在 SSD 上,还是只放在索引上?为 SSD 调整 PostgreSQL 是否需要任何特别的建议/教程?请注意,我有一个配备 i7 和 32Gb RAM 的良好工作站,所以也许您也可以在那里提供一些建议。
关于 SSD,主要建议是在 postgresql.conf 中将 'random_page_cost' 降低到 1(等于 'seq_page_cost'),以及其他常用设置。
没有备份。像任何存储设备一样,它可能会死掉。保留备份。
如果数据加载需要很长时间,我会在完成数据加载后备份只读数据库,方法是停止并复制它。这样,如果出现问题,以后重新创建会更容易。
如果合适,存储整个数据库。
如果没有,请在 SSD 上放置一个表空间并使用它来存储索引和尽可能多的大量查询表。
SSD 的大部分优势在于 OLTP 写入负载。只读加载的主要优势是快速查找,slardiere 已经涵盖了这一点。
您可能想要设置
effective_io_concurrency = 5
或设置一些东西来反映 SSD 可以进行快速、大量流水线化的随机读取这一事实……但它只影响位图索引扫描,并且在实践中random_page_cost
已经包含了这一点。对于只读负载,它并没有太大的区别。
有关初始数据加载,请参阅:
maintenance_work_mem
为数据加载设置一个大的。我至少会使用8GB
.work_mem
为查询工作设置一个大的。适当的大小在一定程度上取决于查询的复杂性。从那里开始500MB
并向上走。增加您的
checkpoint_segments
(大量)初始数据加载。记得禁用 VM 过量使用!(参见 PostgreSQL 手册:http ://www.postgresql.org/docs/current/static/kernel-resources.html )