我有这张桌子:
CREATE TABLE spp.rtprices (
"interval" timestamp without time zone NOT NULL,
rtlmp numeric(12,6),
rtmcc numeric(12,6),
rtmcl numeric(12,6),
node_id integer NOT NULL,
CONSTRAINT rtprices_pkey PRIMARY KEY ("interval", node_id),
CONSTRAINT rtprices_node_id_fkey FOREIGN KEY (node_id)
REFERENCES spp.nodes (node_id) MATCH SIMPLE
ON UPDATE RESTRICT ON DELETE RESTRICT
)
还有一个相关的索引:
CREATE INDEX rtprices_node_id_interval_idx ON spp.rtprices (node_id, "interval");
反对它我提出了这样的观点:
CREATE OR REPLACE VIEW spp.rtprices_hourly AS
SELECT (rtprices."interval" - '00:05:00'::interval)::date::timestamp without time zone AS pricedate,
date_part('hour'::text, date_trunc('hour'::text, rtprices."interval" - '00:05:00'::interval))::integer + 1 AS hour,
rtprices.node_id,
round(avg(rtprices.rtlmp), 2) AS rtlmp,
round(avg(rtprices.rtmcc), 2) AS rtmcc,
round(avg(rtprices.rtmcl), 2) AS rtmcl
FROM spp.rtprices
GROUP BY date_part('hour'::text, date_trunc('hour'::text, rtprices."interval" - '00:05:00'::interval))::integer + 1,
rtprices.node_id,
(rtprices."interval" - '00:05:00'::interval)::date::timestamp without time zone;
其重点是给出每小时数字列的平均值(时间戳每 5 分钟有一次数据)。问题在于,对于 24 条记录,一天的查询node_id
需要超过 30 秒的时间。
explain analyze select * from spp.rtprices_hourly
where node_id=20 and pricedate='2015-02-02'
返回这个:
"HashAggregate (cost=1128767.71..1128773.79 rows=135 width=28) (actual time=31155.023..31155.065 rows=24 loops=1)"
" Group Key: ((date_part('hour'::text, date_trunc('hour'::text, (rtprices."interval" - '00:05:00'::interval))))::integer + 1), rtprices.node_id, (((rtprices."interval" - '00:05:00'::interval))::date)::timestamp without time zone"
" -> Bitmap Heap Scan on rtprices (cost=10629.42..1128732.91 rows=2320 width=28) (actual time=25071.410..31153.715 rows=288 loops=1)"
" Recheck Cond: (node_id = 20)"
" Rows Removed by Index Recheck: 7142233"
" Filter: (((("interval" - '00:05:00'::interval))::date)::timestamp without time zone = '2015-02-02 00:00:00'::timestamp without time zone)"
" Rows Removed by Filter: 124909"
" Heap Blocks: exact=43076 lossy=82085"
" -> Bitmap Index Scan on rtprices_node_id_interval_idx (cost=0.00..10628.84 rows=464036 width=0) (actual time=68.999..68.999 rows=125197 loops=1)"
" Index Cond: (node_id = 20)"
"Planning time: 5.243 ms"
"Execution time: 31155.392 ms"
更简单的视图
为了这个目标:
.. 截断到完整的时间似乎同样好,这更简单也更便宜:
更快的查询
无论哪种方式,对具有可搜索谓词的视图的等效查询将是:
这更快,但仍然没有达到预期的速度。主要的性能损失是因为索引只能与 上的索引条件一起使用
node_id
,它在视图中保留为原始状态。rtprices_node_id_interval_idx
这就是为什么您的索引node_id
first 很重要。为什么?在从堆中获取元组(已从表中读取行)之后
hour
,必须过滤第二个谓词。大部分行在流程后期被丢弃,很多工作都是徒劳的。直接查询更快
在聚合之前运行原始查询并应用谓词会快得多:
您现在将看到所有谓词的索引条件。更有效的索引仍然是
node_id
第一个。为什么?快速而简短:创建一个函数
所以,这不会很好地处理视图。改用函数:
现在您可以通过一个简单的查询获得最佳性能:
我添加了一个方便的功能,如果你省略第二个参数,则默认为“一天后”:
有关函数参数和默认值的更多信息:
您可以查询任何范围: