我可以在使用数据库后激活 PITR 吗？

Question

Asked: 2018-08-11 01:48:06 +0800 CST2018-08-11 01:48:06 +0800 CST 2018-08-11 01:48:06 +0800 CST

将累积和添加到时间序列查询 PostgreSQL 9.5

772

我编写了查询，它为我提供了某个日期范围和间隔的时间序列，显示每个时间间隔的收入：

SELECT
    interval_date,
    coalesce(campaign_revenue,0) AS campaign_revenue,
FROM
    -- generate_series helps fill the empty gaps in the following JOIN
    generate_series(
        $2::timestamp,
        $3::timestamp,
        $4) AS interval_date -- could be '1 day', '1 hour' or '1 minute'.
LEFT OUTER JOIN
    -- This SELECT gets all timeseries rows that have data
    (SELECT
        date_trunc($4, s.created) AS interval,
        SUM(s.revenue) campaign_revenue
    FROM
        sale_event AS s
    WHERE
        s.campaignid = $1 AND s.created BETWEEN $2 AND $3 AND s.event_type = 'session_closed'
    GROUP BY
        interval) results
ON
    (results.interval = interval_date);

该查询获取表的每一行sale_event，将创建的日期截断为某个时间间隔（将created时间戳与所需的时间序列粒度对齐），按此时间间隔进行分组，并对行中的列revenue求和。event_typesession_closed

这非常有效，并在指定的时间间隔内为我提供了收入。结果可能如下所示：

interval_date   |   campaign_revenue
------------------------------------
 2018-08-05     |   0.0
 2018-08-06     |   1.5
 2018-08-07     |   0.0
 2018-08-08     |   0.5
 2018-08-09     |   1.0

当提供的范围是2018-08-05 - 2018-08-09和时interval = '1 day'。

我想将截至该日期的收入总和添加到结果中。因此，如果在2018-08-05总收入为之前10.0，结果将是：

interval_date   |   campaign_revenue   |   total_campaign_revenue
-----------------------------------------------------------------
 2018-08-05     |   0.0                |   10.0
 2018-08-06     |   1.5                |   11.5
 2018-08-07     |   0.0                |   11.5
 2018-08-08     |   0.5                |   12.0
 2018-08-09     |   1.0                |   13.0

2 个回答

Voted

Erwin Brandstetter · Answer 1 · 2018-08-11T06:45:23+08:00

在一次扫描中从基础表中读取所有相关行通常更快。
您可以在同一SELECT.

测试EXPLAIN (ANALYZE, TIMING OFF)以验证它实际上更快：

SELECT interval_ts
     , coalesce(revenue      , 0) AS campaign_revenue
     , coalesce(total_revenue, 0) AS total_campaign_revenue    
FROM   generate_series($2::timestamp, $3::timestamp, $4) AS interval_ts
LEFT   JOIN (
   SELECT date_trunc($4, created) AS interval_ts
        , sum(revenue)                                              AS revenue
        , sum(sum(revenue)) OVER (ORDER BY date_trunc($4, created)) AS total_running
   FROM   sale_event AS s
   WHERE  campaignid = $1
   AND    created <= $3                   -- read all relevant rows in one scan
   AND    event_type = 'session_closed'
   GROUP  BY date_trunc($4, created)
   ) results USING (interval_ts);

自动排除子查询中的JOIN前导多余行。

sum(sum(revenue)) OVER (ORDER BY date_trunc($4, created))有效，因为引用手册：

默认框架选项是RANGE UNBOUNDED PRECEDING，与相同RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW。使用ORDER BY，这会将框架设置为从分区开始到当前行的最后一个ORDER BY对等方的所有行。

正是你需要的。

有关的：

剩余的弱点：没有收入的间隔缺少总数。如果这不可接受，我们可以使用此技术来修复：

使用 Postgres 继承一长串缺失值

SELECT interval_ts, campaign_revenue, total_revenue
     , coalesce(first_value(total_revenue) OVER (PARTITION BY grp ORDER BY interval_ts), 0) AS total_campaign_revenue    
FROM  (
   SELECT interval_ts
        , coalesce(revenue, 0) AS campaign_revenue
        , total_revenue
        , count(total_revenue) OVER (ORDER BY interval_ts) AS grp
   FROM  (
      SELECT interval_ts
           , coalesce(revenue, 0) AS campaign_revenue
           , count(total_revenue) OVER (ORDER BY interval_ts) AS grp
      FROM   generate_series($2::timestamp, $3::timestamp, $4) AS interval_ts
      LEFT   JOIN (
         SELECT date_trunc($4, created) AS interval_ts
              , sum(revenue) AS revenue
              , sum(sum(revenue)) OVER (ORDER BY date_trunc($4, created)) AS total_running
         FROM   sale_event AS s
         WHERE  campaignid = $1
         AND    created <= $3                   -- read all relevant rows in one scan
         AND    event_type = 'session_closed'
         GROUP  BY date_trunc($4, created)
         ) results USING (interval_ts)
      ) sub1
   ) sub2;

由于增加了开销，我不确定它是否可以竞争。如果您的选择很小并且桌子很大，仍然可能。

小提示：

您不需要围绕连接条件的括号。
不要将您的时间戳称为“日期”。这是误导。我使用interval_ts而不是interval_date.
我宁愿不使用SQL 关键字 interval作为列别名——即使 Postgres 允许这样做。
使用相同的列别名interval_ts以允许更短的USING语法 - 这确实需要括号。这仅将连接列的一个实例暴露interval_ts给外部查询，因此非限定名称仍然没有歧义。
不要省略AS列别名的关键字（虽然这对于表别名来说是可以的）。

Lennart - Slava Ukraini · Answer 2 · 2018-08-11T02:12:08+08:00

如果我做对了，您可以在查询之外添加一个窗口函数，例如：

SELECT interval_date, campaign_revenue
     , SUM(campaign_revenue) OVER (ORDER BY interval_date) 
      + (SELECT SUM(revenue) 
         FROM sale_event
         WHERE s.campaignid = $1
           AND s.created < $2
           AND s.event_type = 'session_closed') as total_campaign_revenue
FROM (
    SELECT interval_date
         , coalesce(campaign_revenue,0) AS campaign_revenue
    FROM
        -- generate_series helps fill the empty gaps in the following JOIN
        ...
        interval) results
    ON (results.interval = interval_date)
);

另一种选择是直接应用窗口函数，并使用 FILTER 子句campaign_revenue

将累积和添加到时间序列查询 PostgreSQL 9.5

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

将累积和添加到时间序列查询 PostgreSQL 9.5

2 个回答

相关问题