AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / dba / 问题 / 206055
Accepted
Vérace
Vérace
Asked: 2018-05-08 07:37:25 +0800 CST2018-05-08 07:37:25 +0800 CST 2018-05-08 07:37:25 +0800 CST

PostgreSQL - 不同月份的最大总和与多年的联系

  • 772

这个问题是 PostgreSQL 版本的一个关于 MySQL 5.6 here的问题。最初,这是两个 RDBMS 的一个问题,但有人向我建议,鉴于这两个系统的不同功能,我应该拆分这个问题——特别是我认为 CTE(WITH 子句)应该使查询更加优雅和可读!

假设我有一个肿瘤列表(这个数据是根据真实数据模拟的):

CREATE table illness (nature_of_illness VARCHAR(25), created_at DATETIME);

INSERT INTO illness VALUES ('Cervix', '2018-01-03 15:45:40');
INSERT INTO illness VALUES ('Cervix', '2018-01-03 15:45:40');
INSERT INTO illness VALUES ('Cervix', '2018-01-03 15:45:40');
INSERT INTO illness VALUES ('Cervix', '2018-01-03 15:45:40');
INSERT INTO illness VALUES ('Cervix', '2018-01-03 15:45:40');
INSERT INTO illness VALUES ('Lung',   '2018-01-03 17:50:32');
INSERT INTO illness VALUES ('Lung',   '2018-02-03 17:50:32');
INSERT INTO illness VALUES ('Lung',   '2018-02-03 17:50:32');
INSERT INTO illness VALUES ('Lung',   '2018-02-03 17:50:32');
INSERT INTO illness VALUES ('Cervix', '2018-02-03 17:50:32');
-- 2017, with 1 Cervix and Lung each for the month of Jan - tie!
INSERT INTO illness VALUES ('Cervix', '2017-01-03 15:45:40');
INSERT INTO illness VALUES ('Lung',   '2017-01-03 17:50:32');
INSERT INTO illness VALUES ('Lung',   '2017-02-03 17:50:32');
INSERT INTO illness VALUES ('Lung',   '2017-02-03 17:50:32');
INSERT INTO illness VALUES ('Lung',   '2017-02-03 17:50:32');
INSERT INTO illness VALUES ('Cervix', '2017-02-03 17:50:32');

您想找出给定月份中哪种特定肿瘤最常见 - 到目前为止一切顺利!

现在,您会注意到,对于 2017 年的第 1 个月,有一个平局 - 因此随机选择一个并给出它作为答案是没有任何意义的 - 所以必须包括平局 - 这使得问题更具挑战性。

我有一个解决方案,但它非常复杂 - 我想知道我的解决方案是否最优。PostgreSQL 小提琴就在这里!小提琴中的查询非常麻烦——我将看看使用 CTE 的情况。

我的第一个答案(适用于 PostgreSQL 和 MySQL)包含在小提琴中,但我不会在这里发布它,因为我相信它会被 PostgreSQL 的卓越功能所取代,它只是我对 MySQL 的答案的副本问题!

postgresql cte
  • 3 3 个回答
  • 1202 Views

3 个回答

  • Voted
  1. Best Answer
    Erwin Brandstetter
    2018-05-08T08:33:33+08:002018-05-08T08:33:33+08:00

    对于给定的月份:

    SELECT tumour_count, illness
    FROM (
       SELECT count(*) AS tumour_count, illness
            , rank() OVER (ORDER BY count(*) DESC) AS rnk
       FROM   illness
       WHERE  created_at  >= '2017-01-01'  -- given month: 2007-01
       AND    created_at  <  '2017-02-01'  -- optimized for index lookup
       GROUP  BY illness
       ) sub
    WHERE  rnk = 1;
    

    上应该有一个索引(created_at),或者甚至(created_at, illness)可能允许仅索引扫描。

    子查询比 Postgres 中的 CTE 快一点。因此,仅在需要时或性能不重要时才使用 CTE 。

    有关的:

    • 如何优化 postgres 中的窗口查询
    • 计算每组最大值和附加条件的行数

    对于任何给定的时间段

    根据评论中的要求:

    SELECT to_char(mon, 'YYYY-MM') AS month, tumour_count, illness
    FROM  (
       SELECT date_trunc('month', created_at) AS mon
            , illness
            , count(*) AS tumour_count
            , rank() OVER (PARTITION BY date_trunc('month', created_at)
                           ORDER BY count(*) DESC) AS rnk
       FROM   illness
       WHERE  created_at  >= '2017-01-01'  -- period from 2007-01 to 2019-01
       AND    created_at  <  '2019-02-01'
       GROUP  BY 1, 2
       ) sub
    WHERE  rnk = 1
    ORDER  BY mon, illness;
    

    如果您有领先或悬挂的部分月份,请小心,计数可能会产生误导。

    这在功能上等同于ypercube 已经提供的功能。只是一些简化,可以更短/更快。并在给定时间段内添加过滤器。

    随着从表中读取的行所占比例的增加,索引支持变得不那么重要了——大约超过 5% 时索引支持就不再有用了。(例外情况适用,例如仅索引扫描。)

    通过聚合搭售同行,您每月仍然可以有1 行。喜欢:

    SELECT to_char(mon, 'YYYY-MM') AS month, tumour_count, string_agg(illness, ' | ')
    FROM  (
       SELECT date_trunc('month', created_at) AS mon
            , illness
            , count(*) AS tumour_count
            , rank() OVER (PARTITION BY date_trunc('month', created_at)
                           ORDER BY count(*) DESC) AS rnk
       FROM   illness
       WHERE  created_at  >= '2017-01-01'  -- period from 2007-01 to 2019-01
       AND    created_at  <  '2019-02-01'
       GROUP  BY 1, 2
       ) sub
    WHERE  rnk = 1
    GROUP  BY mon, tumour_count
    ORDER  BY mon;
    

    db<>在这里摆弄

    • 5
  2. ypercubeᵀᴹ
    2018-05-08T08:15:52+08:002018-05-08T08:15:52+08:00

    使用窗口RANK()函数和DATE_TRUNC()(所以我们不使用EXTRACT()两次):

      SELECT  
        EXTRACT(YEAR  FROM year_month) AS c_year,
        EXTRACT(MONTH FROM year_month) AS c_month,
        nature_of_illness,
        month_count
      FROM
        (
          SELECT 
            nature_of_illness,
            DATE_TRUNC('month', created_at) AS year_month,
            COUNT(*) AS month_count,
            RANK() OVER (PARTITION BY DATE_TRUNC('month', created_at) 
                         ORDER BY COUNT(*) DESC)
              AS rnk
          FROM illness
          GROUP BY 
            DATE_TRUNC('month', created_at),
            nature_of_illness
        ) AS t
      WHERE rnk = 1 
      ORDER BY 
        year_month, nature_of_illness ;
    

    在dbfiddle.uk进行测试。

    • 4
  3. Joe
    2018-05-08T09:25:07+08:002018-05-08T09:25:07+08:00

    我对此进行了尝试,并得到了与 ypercube 相同的总体想法。我认为他的更好,但我会提交这个,以防您觉得它有趣,并且因为我做起来很开心 :)

    SELECT
        C_YEAR,
        C_MONTH,
        NATURE_OF_ILLNESS,
        MONTH_COUNT
    FROM(
    SELECT
        EXTRACT(YEAR FROM CREATED_AT) C_YEAR,
        EXTRACT(MONTH FROM CREATED_AT) C_MONTH,
        NATURE_OF_ILLNESS,
        COUNT(NATURE_OF_ILLNESS) MONTH_COUNT,
        MAX(COUNT(NATURE_OF_ILLNESS)) OVER (
            PARTITION BY EXTRACT(YEAR FROM CREATED_AT),  
            EXTRACT(MONTH FROM CREATED_AT)) MAX_MONTH_COUNT
    FROM 
        ILLNESS
    GROUP BY 
        EXTRACT(YEAR FROM CREATED_AT),
        EXTRACT(MONTH FROM CREATED_AT),
        NATURE_OF_ILLNESS
    ) AS SICKNESS
    
    WHERE MONTH_COUNT = MAX_MONTH_COUNT
    ORDER BY 
        C_YEAR ASC, 
        C_MONTH ASC
    
    • 2

相关问题

  • 我可以在使用数据库后激活 PITR 吗?

  • 运行时间偏移延迟复制的最佳实践

  • 存储过程可以防止 SQL 注入吗?

  • PostgreSQL 中 UniProt 的生物序列

  • PostgreSQL 9.0 Replication 和 Slony-I 有什么区别?

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目

    • 12 个回答
  • Marko Smith

    如何让sqlplus的输出出现在一行中?

    • 3 个回答
  • Marko Smith

    选择具有最大日期或最晚日期的日期

    • 3 个回答
  • Marko Smith

    如何列出 PostgreSQL 中的所有模式?

    • 4 个回答
  • Marko Smith

    列出指定表的所有列

    • 5 个回答
  • Marko Smith

    如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

    • 4 个回答
  • Marko Smith

    你如何mysqldump特定的表?

    • 4 个回答
  • Marko Smith

    使用 psql 列出数据库权限

    • 10 个回答
  • Marko Smith

    如何从 PostgreSQL 中的选择查询中将值插入表中?

    • 4 个回答
  • Marko Smith

    如何使用 psql 列出所有数据库和表?

    • 7 个回答
  • Martin Hope
    Jin 连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane 如何列出 PostgreSQL 中的所有模式? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh 为什么事务日志不断增长或空间不足? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland 列出指定表的所有列 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney MySQL 能否合理地对数十亿行执行查询? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx 如何监控大型 .sql 文件的导入进度? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison 你如何mysqldump特定的表? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 对 SQL 查询进行计时? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas 如何从 PostgreSQL 中的选择查询中将值插入表中? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 列出所有数据库和表? 2011-02-18 00:45:49 +0800 CST

热门标签

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve