我正在运行类似的查询
select id from students where school_id='67153fb1-8f79-441d-a747-ca3778cf6d3d';
在看起来像的桌子上
Table "public.students"
Column | Type | Modifiers
-------------------+-----------------------------+------------------------------------
id | uuid | not null default gen_random_uuid()
school_id | uuid |
Indexes:
"students_pkey" PRIMARY KEY, btree (id)
"students_school_id_idx" btree (school_id)
带有 where 的 select 语句的查询计划如下所示 -
explain select id from students where school_id='67153fb1-8f79-441d-a747-ca3778cf6d3d';
QUERY PLAN
--------------------------------------------------------------------------------------------------
Bitmap Heap Scan on students (cost=581.83..83357.10 rows=24954 width=16)
Recheck Cond: (school_id = '67153fb1-8f79-441d-a747-ca3778cf6d3d'::uuid)
-> Bitmap Index Scan on students_school_id_idx (cost=0.00..575.59 rows=24954 width=0)
Index Cond: (school_id = '67153fb1-8f79-441d-a747-ca3778cf6d3d'::uuid)
这是相当快的。
现在我们将 order by 添加到带有 id 的查询中,这会降低查询的性能。(这样的查询是由 Rails 生成的,比如 student.first 有一些条件)
explain select id from students where school_id='67153fb1-8f79-441d-a747-ca3778cf6d3d' order by id asc limit 1;
QUERY PLAN
------------------------------------------------------------------------------------------------------------
Limit (cost=0.43..488.51 rows=1 width=16)
-> Index Scan using students_pkey on students (cost=0.43..12179370.22 rows=24954 width=16)
Filter: (school_id = '67153fb1-8f79-441d-a747-ca3778cf6d3d'::uuid)
如何提高返回此查询结果的速度?目前表中大约有 4990731 条记录,耗时超过 2 分钟!它在带有 db.t2.medium 实例的 RDS 上运行。
更新
运行后Analyze students;
explain select id from students where school_id='67153fb1-8f79-441d-a747-ca3778cf6d3d' order by id asc limit 1;
QUERY PLAN
-----------------------------------------------------------------------------------------------------------------
Limit (cost=8.46..8.46 rows=1 width=16)
-> Sort (cost=8.46..8.46 rows=1 width=16)
Sort Key: id
-> Index Scan using students_school_id_idx on students (cost=0.43..8.45 rows=1 width=16)
Index Cond: (school_id = '67153fb1-8f79-441d-a747-ca3778cf6d3d'::uuid)
explain analyze select id from students where school_id='67153fb1-8f79-441d-a747-ca3778cf6d3d' order by id asc limit 1;
QUERY PLAN
-----------------------------------------------------------------------------------------------------------------------------------------------------------
Limit (cost=8.46..8.46 rows=1 width=16) (actual time=1.853..1.855 rows=1 loops=1)
-> Sort (cost=8.46..8.46 rows=1 width=16) (actual time=1.851..1.852 rows=1 loops=1)
Sort Key: id
Sort Method: quicksort Memory: 25kB
-> Index Scan using students_school_id_idx on students (cost=0.43..8.45 rows=1 width=16) (actual time=1.841..1.843 rows=1 loops=1)
Index Cond: (school_id = '67153fb1-8f79-441d-a747-ca3778cf6d3d'::uuid)
Planning time: 0.145 ms
Execution time: 1.874 ms
ORDER BY
PostgreSQL 认为,通过按排序顺序扫描行并丢弃行直到找到正确的行,这样会更快地避免对 的排序school_id
。这可能比预期花费更长的时间有两个原因:
表统计信息已关闭,PostgreSQL 高估了带有
school_id
.计算新的统计数据,可能具有更高的 值
default_statistics_target
,以验证这是否是问题所在:正确的(许多)行
school_id
恰好都有一个相当高的id
,因此 PostgreSQL 必须扫描比它讨价还价的更多的行,直到找到匹配项。在这种情况下,您应该修改该
ORDER BY
子句,以便 PostgreSQL 不能使用错误的索引:UUID
列对性能不利,因为它们通常按定义无序。您命名的列id
属于类型UUID
,因此可能是无序的。当您只运行简单时
select id from students where school_id='67153fb1-8f79-441d-a747-ca3778cf6d3d';
,查询引擎只需遍历表中的数据 (HEAP) 并忽略与 WHERE 子句 () 不匹配的数据。在第二种情况下,您正在做两件事。
students_pkey
通过生成有序结果集的索引选择数据,但最终在堆中呈锯齿状。这是它的Index Scan using students_pkey on students (cost=0.43..12179370.22 rows=24954 width=16)
一部分EXPLAIN
students_school_id_idx
索引过滤第一个结果。这是Filter: (school_id = '67153fb1-8f79-441d-a747-ca3778cf6d3d'::uuid)
部分EXPLAIN
您可能要考虑不使用 UUID,因为它们会带来一些开销。阅读顺序 UUID 生成器文章了解更多信息。
...和...
(强调我的)
...因为...
(强调我的)
表中数据的分布是顺序的,但 UUID 将是无序的。在某些时候,b-tree 索引必须访问数据,并且由于索引被用于
ORDER BY
通过索引检索数据,实际数据将以锯齿形模式检索。这个问题有一些解决方法,但它们要么涉及不同的 UUID 生成,要么涉及对插入性能有影响的聚集索引的使用,因为数据不断地重新排序。
可以在这里找到对 PostgreSQL 中 B-Tree 索引的一个很好的解释
基本上在索引的最后一个叶级别发生的事情是这样的:
索引是有序的。数据不是。这就是为什么 ODER BY 会由于实际数据的曲折检索而导致开销。