我在索引上放了多少“填充”？

Question

Asked: 2019-04-11 23:07:09 +0800 CST2019-04-11 23:07:09 +0800 CST 2019-04-11 23:07:09 +0800 CST

如何索引/优化 PostgreSQL 中两列的总和？

772

我们有一个数据库，其中一张表包含需要保存不同时间（通常在几十分钟到两周之间）的序列化临时数据。我们还有一个低优先级的后台进程，可以从表中删除旧行。后台进程在一个事务中最多删除 1000 行：

delete from temporarydata
    where id in (
        select id from temporarydata
            where (created + ttl) <= 1553755330 limit 1000
    )

1553755330示例中的是自 UNIX 纪元以来的当前秒数，包含created自 UNIX 纪元以来添加数据ttl的秒数，并且包含数据应保持活动状态的秒数。

从技术上讲，这确实有效，但临时数据中有大约 2M 行，并且子选择变得非常慢，因为总和需要对表进行顺序扫描以找到所有匹配的行。这会导致数据库上的额外后台负载。

> explain (analyze,verbose,timing,buffers) select id from temporarydata
        where (created + ttl) <= 1553755330 limit 1000

Limit  (cost=0.00..402.34 rows=1000 width=16) (actual time=6735.811..6735.811 rows=0 loops=1)
  Output: id
  Buffers: shared hit=3068 read=230500
  ->  Seq Scan on public.temporarydata  (cost=0.00..262980.99 rows=653622 width=16) (actual time=6735.809..6735.809 rows=0 loops=1)
        Output: id
        Filter: ((temporarydata.created + temporarydata.ttl) <= 1553755330)
        Rows Removed by Filter: 1916405
        Buffers: shared hit=3068 read=230500
Planning time: 0.402 ms
Execution time: 6735.849 ms

我宁愿只添加一个新索引，该索引始终包含created + ttlPostgreSQL 能够自动用于此查询的总和。这可以通过高性能实现吗？

（我正在考虑重写应用程序代码来保存created而expires不是ttlwhere expiresis created+ ttl。然后我计算逻辑ttl作为这些值的差异。我认为应用程序不会ttl单独发出繁重的查询。）

2 个回答

Voted

Kondybas · Answer 1 · 2019-04-11T23:47:17+08:00

如果您对每条记录都使用了相同的 TTL，您可以通过简单地将 TTL 移动到比较的右侧来避免功能索引（感谢jjanes更正）：

DELETE
  FROM temporarydata
 WHERE id IN ( SELECT id 
                 FROM temporarydata
                WHERE created <= 1553755330 - ttl
                LIMIT 1000
             )

优化器将只计算一次差异，然后将其用于索引created列。

如果您需要为不同的记录使用不同的 TTL，您可以存储的不是created -- ttl一对而是预先计算的created -- expires一个

您可以使用功能索引：

CREATE INDEX expires ON temporarydata ((created+ttl));

jjanes · Answer 2 · 2019-04-12T05:07:23+08:00

我认为重构表以存储过期将是一个好主意。如果您不想这样做，那么您可以制作一个表达式 index on temporarydata ((created + ttl))。

然而，让它使用这个索引可能需要一些鼓励，因为统计系统可能无法自然地为它提供足够好的估计。将 ORDER BY 添加到您的子选择应该会提供这种鼓励：

where (created + ttl) <= 1553755330 order by (created + ttl) limit 1000

（另外，你想先删除最过期的似乎是有道理的。事实上，我不知道你为什么想要 LIMIT 。）

如何索引/优化 PostgreSQL 中两列的总和？

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

如何索引/优化 PostgreSQL 中两列的总和？

2 个回答

相关问题