如何从 PostgreSQL 中的选择查询中将值插入表中？

Question

Andremoniy

Asked: 2014-02-04 09:11:03 +0800 CST2014-02-04 09:11:03 +0800 CST 2014-02-04 09:11:03 +0800 CST

针对大量 INSERTS 和 bytea 更新优化 PostgreSQL

772

我们拥有的（软件）：

PostrgeSQL 9.3与基本配置（没有变化postgresql.conf）
视窗 7 64 位

硬件：

英特尔酷睿 i7-3770 3.9 Ghz
32 Gb 内存
WDC WD10EZRX-00L4HBAta 硬盘 (1000Gb, SATA III)

所以，我们必须加载到 DB aprox 中。带有bytea列的100.000.000行，以及更简单的500.000.000行（没有 LOB）。第一个表上有 2 个索引（长度为 13、19），第二个表上有 2 个索引（长度为 18、10）。每个表还有用于 id 生成的序列。varcharvarchar

到目前为止，这些操作使用 8 个并行连接和 50 个 JDBC 批处理大小进行。postgresql下图展示了系统负载：它是进程的零负载。加载 24 小时后，我们只加载了 10.000.000 行，结果非常慢。

在此处输入图像描述

PostrgreSQL我们在调整配置方面寻求帮助，目的是：

1）超快速加载这么多数据，是一次操作，所以可以临时配置

2) 对于生产模式，通过它们的索引对这两个表进行中等数量的 SELECT，而不进行连接和排序。

1 个回答

Voted

Craig Ringer · Answer 1 · 2014-02-04T17:07:59+08:00

有关insert性能，请参阅加速 PostgreSQL 中的插入性能和 PostgreSQL 中的批量插入。

~~您在为insert. PgJDBC 对批处理没有任何用处insert，它只是运行每个语句。~~<-- 这在新的 PgJDBC 版本中不再适用，它现在可以批处理准备好的语句以显着减少往返时间。但最好还是：

改为使用COPY；请参阅PgJDBC 批量复制和CopyManager. 至于并发加载器的数量：如果操作受磁盘 I/O 限制，则目标是每个磁盘一对。八可能是你最想要的。

对于您的“生产模式”，我建议加载一个数据样本，设置您希望运行的查询，并使用explain analyze它来调查性能。仅出于测试目的，使用enable_参数来探索不同的计划选择。为您的系统适当地设置查询计划器成本参数（random_page_cost、seq_page_cost、effective_cache_size等），并确保shared_buffers设置得当。在添加模拟生产工作负载时继续监控，使用auto_explain模块、log_min_duration_statement设置、pg_stat_statements扩展等。

有关详细信息，请参阅 PostgreSQL 用户手册。explain analyze当您在查询执行细节等方面遇到更具体的问题时，我建议您回到这里。

针对大量 INSERTS 和 bytea 更新优化 PostgreSQL

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限