我可以在使用数据库后激活 PITR 吗？

Question

Asked: 2024-02-02 07:10:41 +0800 CST2024-02-02 07:10:41 +0800 CST 2024-02-02 07:10:41 +0800 CST

如何使用大量值以最佳方式执行 Postgres `IN (...set...)` 查询

772

我有一个包含数百万行的表，我想查找在特定列中具有所提供的数千个值列表中的任何一个的所有行。基本上，我想运行一个IN(...set...)查询，该查询在内部重写为一个= ANY(...array...)构造，数组大小为数千，针对具有数百万行的索引列。

我的问题是：

此查询类型中的集合或数组的大小是否有限制？
此查询类型如何扩展？我假设数组没有索引，所以大概每个数组值都会命中索引，从而O(n log N)为n数组值和N表行提供 , 的缩放？
在一系列更简单的查询中提交这些类型的大型查询会对查询吞吐量造成多大影响？换句话说，是否可以将其分解为几十个单独的查询，每个查询包含 100 个数组值，以便允许该查询的工作与其他查询交错？

2 个回答

Voted

Laurenz Albe · Answer 1 · 2024-02-02T15:12:40+08:00

限制附录将告知您查询参数的最大数量为 65535，如果内存允许，一条消息（查询）的限制为半 GB。

当然，随着列表变长，性能会逐渐恶化。我建议发送单个数组参数而不是数千个单独的值。另一种方法是将COPY值放入临时表中并与其连接。对于正常的列表大小，我没有看到任何优势，但它避免了限制，并且可能对大型列表有益。

最后，您必须自己进行基准测试。如果您需要这样的庞大列表，您可能需要重新评估您的设计选择。

bobflux · Answer 2 · 2024-02-04T18:53:28+08:00

我做了一个小基准。

源代码在pastebin上

测试表：10M 行（id INT PRIMARY KEY, s TEXT）。

结果：

   0.055ms      1 rows Correlated SELECT * FROM test_array WHERE id =ANY(A
   0.042ms      1 rows Correlated SELECT * FROM test_array WHERE id IN (1)
   0.070ms      1 rows Correlated SELECT * FROM unnest(ARRAY[1]) id JOIN t
   0.045ms      1 rows     Random SELECT * FROM test_array WHERE id =ANY(A
   0.042ms      1 rows     Random SELECT * FROM test_array WHERE id IN (31
   0.070ms      1 rows     Random SELECT * FROM unnest(ARRAY[3146607]) id
   0.058ms     10 rows Correlated SELECT * FROM test_array WHERE id =ANY(A
   0.059ms     10 rows Correlated SELECT * FROM test_array WHERE id IN (1,
   0.085ms     10 rows Correlated SELECT * FROM unnest(ARRAY[1,2,3,4,5,6,7
   0.065ms     10 rows     Random SELECT * FROM test_array WHERE id =ANY(A
   0.062ms     10 rows     Random SELECT * FROM test_array WHERE id IN (66
   0.088ms     10 rows     Random SELECT * FROM unnest(ARRAY[6629054,48357
   0.184ms    100 rows Correlated SELECT * FROM test_array WHERE id =ANY(A
   0.183ms    100 rows Correlated SELECT * FROM test_array WHERE id IN (1,
   0.222ms    100 rows Correlated SELECT * FROM unnest(ARRAY[1,2,3,4,5,6,7
   0.247ms    100 rows     Random SELECT * FROM test_array WHERE id =ANY(A
   0.237ms    100 rows     Random SELECT * FROM test_array WHERE id IN (15
   0.258ms    100 rows     Random SELECT * FROM unnest(ARRAY[153046,957664
   1.442ms   1000 rows Correlated SELECT * FROM test_array WHERE id =ANY(A
   1.458ms   1000 rows Correlated SELECT * FROM test_array WHERE id IN (1,
   1.558ms   1000 rows Correlated SELECT * FROM unnest(ARRAY[1,2,3,4,5,6,7
   2.076ms   1000 rows     Random SELECT * FROM test_array WHERE id =ANY(A
   2.019ms   1000 rows     Random SELECT * FROM test_array WHERE id IN (90
   2.070ms   1000 rows     Random SELECT * FROM unnest(ARRAY[9047600,58146
  15.233ms  10000 rows Correlated SELECT * FROM test_array WHERE id =ANY(A
  14.536ms  10000 rows Correlated SELECT * FROM test_array WHERE id IN (1,
  15.389ms  10000 rows Correlated SELECT * FROM unnest(ARRAY[1,2,3,4,5,6,7
  62.936ms   9995 rows     Random SELECT * FROM test_array WHERE id =ANY(A
  47.661ms   9995 rows     Random SELECT * FROM test_array WHERE id IN (31
  36.861ms  10000 rows     Random SELECT * FROM unnest(ARRAY[3109119,87658
 421.528ms 100000 rows Correlated SELECT * FROM test_array WHERE id =ANY(A
 413.692ms 100000 rows Correlated SELECT * FROM test_array WHERE id IN (1,
  95.054ms 100000 rows Correlated SELECT * FROM unnest(ARRAY[1,2,3,4,5,6,7
 413.768ms  99482 rows     Random SELECT * FROM test_array WHERE id =ANY(A
 411.587ms  99482 rows     Random SELECT * FROM test_array WHERE id IN (33
 508.202ms 100000 rows     Random SELECT * FROM unnest(ARRAY[3364043,10450

解释：

“WHERE id IN (...)”和“WHERE id =ANY(...)”之间没有区别。

此查询类型如何扩展？我假设数组没有索引，所以大概每个数组值都会命中索引，对于 n 个数组值和 N 个表行，给出 O(nN) 的缩放？

假设正在搜索的列已建立索引，它会对数组中的每个值执行一次索引查找，成本为 O(log N)。对于 n 个数组值，总成本为 O(n log N)。正如预期的那样，运行查询的固定成本很小，然后它会随着返回的行数呈线性扩展。

我包括了两种情况：“相关”，其中检索到的行的 id 是连续的；“随机”，其中它们在整个表中随机化。正如预期的那样，各种缓存（从 CPU L1 到操作系统磁盘缓存）都会完成其工作，因此通过更高的引用局部性检索数据会更快。

不管怎样，在每行 2 微秒的情况下，数据库 CPU 负载相当低。

但是，它在 SSD 上运行，并且表缓存在 RAM 中。在更“现实世界”的情况下，表的某些部分不会被缓存，如果您检索随机行，则可以预期每行有一次随机访问。这可能会很慢，具体取决于你的硬件，但是......这与 postgres 本身无关。这完全取决于您的 IO 系统以及数据的缓存情况。如果您使用旋转磁盘并且数据未缓存，并且您并不特别关心此查询是否尽可能快，那么将其切成较小的行列表可能会减少磁盘垃圾。

我还包括了第三个测试用例：

SELECT * FROM unnest(ARRAY[%s]) id JOIN test_array USING (id)

当数组的长度非常大时，其他查询只需进行并行的 seq 扫描。这非常快，因为“Filter where id=ANY(...)”并不愚蠢，它使用某种快速搜索，如散列或二等分，它不会将每一行与数组的每个值进行比较。

最后一个查询很有趣，因为它是一个联接，因此 postgres 将其优化为联接，在某些情况下可能会更快...或更慢...。

如何使用大量值以最佳方式执行 Postgres `IN (...set...)` 查询

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

如何使用大量值以最佳方式执行 Postgres `IN (...set...)` 查询

2 个回答

相关问题