我有一张有 2 亿行的 +80 演出的桌子。我试图加快速度,我注意到它有大量的 varchar 列。在模式中,它们的长度范围从 15 个字符到 250 个字符,大多数设置为 50。所有 varchars 的总长度为 850 个字节。在实际使用中,很多字段为空或者字符串很短。
我知道 Postgres 使用 8k 页面大小。现在,如果我必须进行全表扫描并假设最坏的情况,每页 8k / 850 = 9.6 条记录。浏览我的整张桌子将(并且确实)需要很长时间。然而实际上,由于这些字段中的大多数都是空的,那么磁盘上将为这些 varchars 分配多少空间?每页是否会有更多记录,或者 Postgres 是否添加了一些填充以方便以后更新?
我问的原因是因为我正在探索通过将尽可能多的不经常访问的 varchars 列从该表中踢出并进入我们将通过连接访问的另一个列来提高性能的想法。
对我的逻辑的任何确认或否认都将受到赞赏。
米
您的考虑是合理的,但所有这些都已由 PostgreSQL 自动处理:
NULL 值在 PostgreSQL 表行中根本不占用空间。
A
varchar
只会占用与值实际具有的字节一样多的空间。长度限制(类型修饰符)不会浪费任何空间。对于非常宽的行(2000 字节及以上),
varchar
首先压缩 s,然后,如果结果仍然太大,则将其存储在外部TOAST表中。如果您SELECT
从这样的行中读取,则不会读取烘烤的值,除非您指定请求的列值。但是如果一行的大小限制是 850 字节,那么就太小了,无法进入该范围。
您可以通过查看
width
输出中的列来检查估计的平均行大小(以字节为单位)EXPLAIN SELECT * FROM tablename
。PostgreSQL v12 引入了
toast_tuple_target
storage 参数,可以让您减少 TOASTing 数据的限制。如果你调整它,并且在用 重写表之后VACUUM (FULL)
,PostgreSQL 可以以你想要的方式存储数据。然后你可以看看这是否真的能让你有更好的表现。