PostgreSQL 中 UniProt 的生物序列

Question

François Beausoleil

Asked: 2012-02-10 19:29:05 +0800 CST2012-02-10 19:29:05 +0800 CST 2012-02-10 19:29:05 +0800 CST

PostgreSQL下加快IN查询的方法

772

我有以下形式的查询：

SELECT * FROM twitter_personas WHERE twitter_user_id IN ($1, $2, $3, ..., $25000)

IN 查询有 10 到 25000 个值。查询一次运行几分钟。我有将近 500,000 个这样的查询积压。

twitter_user_id 列已编入索引。关于如何加快速度的任何想法？

# \d twitter_personas
                                    Table "public.twitter_personas"
      Column      |          Type          |                         Modifiers                          
------------------+------------------------+------------------------------------------------------------
 persona_id       | uuid                   | not null
 twitter_user_id  | bigint                 | 
 screen_name      | character varying(40)  | not null
 avatar_url       | text                   | 
 hashval          | integer                | not null default nextval('personas_hashval_seq'::regclass)
Indexes:
    "twitter_personas_pkey" PRIMARY KEY, btree (persona_id)
    "index_twitter_personas_on_screen_name" UNIQUE, btree (screen_name)
    "index_twitter_personas_on_screen_name_persona_id" btree (screen_name, persona_id)
    "index_twitter_personas_twitter_user_id" btree (twitter_user_id) WHERE twitter_user_id IS NOT NULL

2 个回答

Voted

Frank Heikens · Answer 1 · 2012-02-10T22:47:15+08:00

Best Answer

Frank Heikens

2012-02-10T22:47:15+08:002012-02-10T22:47:15+08:00

IN() 使用许多参数将导致在许多情况下进行顺序表扫描。这可能会很慢，具体取决于表的大小和系统的速度。

创建一个包含所有变量的临时表并加入该表：

CREATE TEMP TABLE t AS 
  SELECT * FROM (VALUES(1),(2),(3)) x(twitter_user_id);

SELECT 
  twitter_personas.* 
FROM twitter_personas 
  JOIN t USING(twitter_user_id);

使用 EXPLAIN 查看查询计划之间的差异。

7

Robert Anton Reese · Answer 2 · 2016-07-07T04:18:59+08:00

Robert Anton Reese

2016-07-07T04:18:59+08:002016-07-07T04:18:59+08:00

另一种选择是使用 ANY。

 SELECT * FROM twitter_personas 
 WHERE twitter_user_id ANY (VALUES  ($1), ($2), ($3), ..., ($25000))

我运行了一个包含 1000 个参数的查询，使用 IN 需要 4 分钟，使用 ANY 需要 1 秒。您也可以使用 ANY ARRAY 而不是 ANY VALUES，但根据我的阅读，这比 ANY VALUES 慢。

1

PostgreSQL下加快IN查询的方法

如何查看 Oracle 中的数据库列表？

mysql innodb_buffer_pool_size 应该有多大？

列出指定表的所有列

从 .frm 和 .ibd 文件恢复表？

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

如何选择每组的第一行？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

PostgreSQL下加快IN查询的方法

2 个回答

相关问题