运行时间偏移延迟复制的最佳实践

Question

Nazar Hussain

Asked: 2018-11-03 03:24:21 +0800 CST2018-11-03 03:24:21 +0800 CST 2018-11-03 03:24:21 +0800 CST

为什么 BYTEA 上的 ENCODE 似乎没有任何性能影响？

772

我正在研究一种将hex固定长度 64 格式的字符串存储到数据库的方案。显然选择是BYTEA和CHAR(64)。

最初的想法是强制使用有效的十六进制字符串存储它，BYTEA这是个好主意，但我评估的影响是ENCODE对选择查询的使用。

考虑到两个表都有几百万行，我做了一些性能基准测试；

# A file query_with_char.sql
SELECT "key" FROM table_varchar;;

# A file query_with_binary.sql
SELECT ENCODE("key", 'hex') FROM table_binary;

pgbench -c 30 -T 120 -n -f ./query_with_binary.sql -f ./query_with_char.sql -P 5 -S my_db

SQL script 1: ./query_with_binary.sql
 - weight: 1 (targets 33.3% of total)
 - 236 transactions (34.6% of total, tps = 1.876072)
 - latency average = 8896.888 ms
 - latency stddev = 2548.701 ms
SQL script 2: ./query_with_varchar.sql
 - weight: 1 (targets 33.3% of total)
 - 225 transactions (33.0% of total, tps = 1.788628)
 - latency average = 7164.604 ms
 - latency stddev = 2209.866 ms

我无法理解为什么查询的性能ENCODE比普通字符串更快。PostgreSQL 如何能够比仅获取字符串列更快地对百万行进行编码？

有人可以解释上述测试中可能有什么问题吗？

1 个回答

Voted

Erwin Brandstetter · Answer 1 · 2018-11-03T14:59:32+08:00

encode()是一个非常便宜的功能。我不希望在您的测试中有任何可衡量的影响。

差异几乎可以肯定是由于bytea与char(64). 考虑：

SELECT pg_column_size('90b7525e84f64850c2efb407fae3f27190b7525e84f64850c2efb407fae3f271'::char(64)) AS size_char64
     , pg_column_size(decode(text '90b7525e84f64850c2efb407fae3f27190b7525e84f64850c2efb407fae3f271', 'hex')) AS size_bytea;

 size_char64 | size_bytea
-------------+------------
          68 |         36

SELECT简单查询性能的主导因素是已读取的数据页数。

“最佳”数据类型？

显然选择是BYTEA和CHAR(64)。

如果您的目标是优化性能，请考虑第三种选择：
2uuid列

要理解，请先阅读：

MD5 字段的最佳数据类型是什么？

和：

当所有值都是 36 个字符时，使用 char 与 varchar 进行索引查找会明显更快吗

然后考虑这个演示（在第 11 页执行，但适用于所有现代版本）：

内存大小：

SELECT pg_column_size(t64)                   AS c_text
     , pg_column_size(t64::char(64))         AS c_char64
     , pg_column_size(decode(t64, 'hex'))    AS c_bytea
     , pg_column_size( left(t64, 32)::uuid)
     + pg_column_size(right(t64, 32)::uuid)  AS c_2x_uuid
FROM  (SELECT text '90b7525e84f64850c2efb407fae3f27190b7525e84f64850c2efb407fae3f271') t(t64);

 c_text | c_char64 | c_bytea | c_2x_uuid 
--------+----------+---------+-----------
     68 |       68 |      36 |        32

磁盘大小（压缩格式）：

CREATE TEMP TABLE c64 AS 
SELECT t64                    AS c_text
     , t64::char(64)          AS c_char64
     , decode(t64, 'hex')     AS c_bytea
     , left (t64, 32)::uuid   AS c_uuid1
     , right(t64, 32)::uuid   AS c_uuid2
FROM  (SELECT text '90b7525e84f64850c2efb407fae3f27190b7525e84f64850c2efb407fae3f271') t(t64);

SELECT pg_column_size(c_text)    AS c_text
     , pg_column_size(c_char64)  AS c_char64
     , pg_column_size(c_bytea)   AS c_bytea
     , pg_column_size(c_uuid1)
     + pg_column_size(c_uuid2)   AS c_2x_uuid
FROM   c64;

 c_text | c_char64 | c_bytea | c_2x_uuid 
--------+----------+---------+-----------
     65 |       65 |      33 |        32

db<>在这里摆弄

33 位和 32 位之间看似微小的差异实际上可以产生 8 字节的差异，因为一些存储机制需要以 8 字节的倍数进行填充。

在 PostgreSQL 中计算和节省空间

使用 2 个 UUID 重复您的测试。我相信它会名列前茅。

为什么 BYTEA 上的 ENCODE 似乎没有任何性能影响？

“最佳”数据类型？

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

为什么 BYTEA 上的 ENCODE 似乎没有任何性能影响？

1 个回答

“最佳”数据类型？

相关问题