PostgreSQL 中 UniProt 的生物序列

Question

Sam

Asked: 2014-10-12 16:19:33 +0800 CST2014-10-12 16:19:33 +0800 CST 2014-10-12 16:19:33 +0800 CST

有没有更快的方法在 Postgres 中获得 UNION ALL 行为？

772

我的 Postgres DB 中有一个表 (t0)，其数据如下所示：

t1_id  t2_id
1      1      
2      1
2      1
4      null
4      null
5      null

我有一个查询来返回我想要的结果：

t1_id  t2_id
1      1
4      null
5      null

我的查询看起来像这样：

(
  SELECT DISTINCT ON (t2_id) t1_id, t2_id
  FROM t0
  WHERE t2_id IS NOT NULL
)
UNION ALL
(
  SELECT DISTINCT ON (t1_id) t1_id, t2_id
  FROM t0
  WHERE t2_id IS NULL
)

有没有更快的方法来做这样的操作？这还不错，但是我在几个地方（通过连接）都在做这件事，所有这些重复的查询似乎让事情变慢了一点。似乎必须有更好的方法。

这是小提琴形式的查询：http ://sqlfiddle.com/#!15/d41d8/3603

2 个回答

Voted

Erwin Brandstetter · Answer 1 · 2014-10-20T15:52:25+08:00

对于简单的情况，我只能想到对查询的小改进：

(
  SELECT DISTINCT ON (t2_id)
         t1_id, t2_id
  FROM   t0
  WHERE  t2_id IS NOT NULL
  ORDER  BY t2_id, t1_id  -- to get consistent results
)
UNION ALL
(
  SELECT DISTINCT ON (t1_id)
         t1_id, NULL      -- cheaper
  FROM   t0
  WHERE  t2_id IS NULL
  -- if you retrieve more columns, add ORDER BY, too
)

正如ypercube 提到的，您需要添加ORDER BY一个明确的表达式列表以获得确定性结果。
您可以在查询的第二段中使用常量NULL而不是。t2_id也与以下指数支持有关。
性能的关键是索引。尝试匹配查询的两个部分的两个部分索引：
```
CREATE INDEX t0_part1_idx ON t0 (t2_id, t1_id) WHERE t2_id IS NOT NULL;
CREATE INDEX t0_part2_idx ON t0 (t1_id)        WHERE t2_id IS NULL;
```
您可能希望也可能不希望包含其他列以允许仅索引扫描。

根据表大小和数据分布，可能会有更快的替代方案：

在每个 GROUP BY 组中选择第一行？（最后一章）
优化 GROUP BY 查询以检索每个用户的最新记录

单身的`SELECT`

如果你想把它压缩成一个SELECT：

SELECT DISTINCT ON (coalesce(t2_id, t1_id), t2_id)
       t1_id, t2_id
FROM   t0
ORDER  BY coalesce(t2_id, t1_id), t2_id, t1_id;

等效，但排序顺序除外。如果您希望它更快，请尝试使用功能索引：

CREATE INDEX t0_func_idx ON t0 (coalesce(t2_id, t1_id), t2_id, t1_id);

a_horse_with_no_name · Answer 2 · 2014-10-14T08:38:52+08:00

a_horse_with_no_name

2014-10-14T08:38:52+08:002014-10-14T08:38:52+08:00

举个例子，这会做到：

select distinct on (coalesce(t2_id, t1_id)) t1_id, t2_id
from t0
order by coalesce(t2_id, t1_id);

它本质上是说“在上做一个不同的t2_id，但如果那是null使用t1_id而不是”。

4

有没有更快的方法在 Postgres 中获得 UNION ALL 行为？

单身的`SELECT`

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

有没有更快的方法在 Postgres 中获得 UNION ALL 行为？

2 个回答

单身的SELECT

相关问题

单身的`SELECT`