AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / dba / 问题 / 281538
Accepted
artfulrobot
artfulrobot
Asked: 2020-12-15 10:10:36 +0800 CST2020-12-15 10:10:36 +0800 CST 2020-12-15 10:10:36 +0800 CST

如何在 MySQL/MariaDB 中使用 FIRST_VALUE 窗口函数来获取每组一行?

  • 772

我很高兴看到窗口函数登陆 MariaDB 10.2。我认为它们会很好地解决第一组问题,但我正在努力了解它们的效率。我有这样的事情:

CREATE TABLE email (id INT UNSIGNED NOT NULL PRIMARY KEY AUTO_INCREMENT,  
                    contact_id INT UNSIGNED NOT NULL, /* FK */            
                    email VARCHAR(200),                                   
                    is_primary TINYINT(1) UNSIGNED NOT NULL DEFAULT 0)    
;                                                                         
                                                                          
INSERT INTO email (id, contact_id, email, is_primary)  VALUES                 
  (1, 1, '[email protected]', 0),                                         
  (2, 1, '[email protected]', 1),                                     
  (3, 1, '[email protected]', 0),
  (4, 2, '', 1),
  (5, 2, '[email protected]', 0),
;


我想要每个联系人的列表以及最适合他们的电子邮件。“最佳”被定义为:is_primary如果存在的话,更喜欢他们的。

我要这个:

Contact ID     Email ID             Email
-------------- -------------------- ------------------
1              2                    [email protected]
2              5                    [email protected]

使用窗口功能,我可以获得最好的电子邮件,例如

SELECT contact_id,
  FIRST_VALUE(email) OVER (PARTITION BY contact_id ORDER BY is_primary DESC) best_email,
  FIRST_VALUE(id) OVER (PARTITION BY contact_id ORDER BY is_primary DESC) best_email_id 
FROM email
WHERE email != ''
;                                                                                       

+------------+--------------------------+---------------+ 
| contact_id | best_email               | best_email_id | 
+------------+--------------------------+---------------+ 
|          1 | [email protected] |             2 |
|          1 | [email protected] |             2 |
|          1 | [email protected] |             2 | 
|          2 | [email protected]        |             5 | 
+------------+--------------------------+---------------+

但我注意到

  1. 使用n封有效(或至少非空)电子邮件,我得到n行输出。
  2. 我不得不复制逻辑:partition by contact_id对于每个SELECT; 这感觉效率低下:如果我在电子邮件表中有 12 个其他列需要其数据,我将运行 12 次,除非我只是在 ID 字段上执行此操作,然后在该最佳 ID 上再次进行 INNER JOINED 电子邮件。

所以为了得到我需要的东西,我最终是这样的:

SELECT contact_id, MIN(best_email) best_email, MIN(best_email_id) best_email_id
FROM (                                        
  SELECT  contact_id,                                                                 
    FIRST_VALUE(email) OVER (PARTITION BY contact_id ORDER BY is_primary DESC) best_email,
    FIRST_VALUE(id) OVER (PARTITION BY contact_id ORDER BY is_primary DESC) best_email_id 
  FROM email                                  
  WHERE email != ''                                                                        
) q                                                                                        
GROUP BY contact_id
;                                                                                          

但这感觉效率很低:MIN()需要检查每一行,即使它们都是一样的。我可以这样做:

SELECT contact_id, best_email, best_email_id                             
FROM (                                                                   
  SELECT contact_id, row_number() OVER (PARTITION BY contact_id) r,      
    FIRST_VALUE(email) OVER (PARTITION BY contact_id ORDER BY is_primary DESC) best_email,
    FIRST_VALUE(id) OVER (PARTITION BY contact_id ORDER BY is_primary DESC) best_email_id 
  FROM email                                                                              
  WHERE email != ''                                                                       
) q                                                                                       
WHERE q.r=1;                                                                                         

但它仍然感觉次优。

这似乎更有效:

SET @nth=0, @c=null;                                                          
SELECT id, email FROM (
  SELECT @nth := IF(@c = contact_id, @nth + 1, 1) r, id, email, @c:=contact_id dummy
   FROM email
  WHERE email != ''                                                              
  ORDER BY contact_id, is_primary DESC                                           
) sq
WHERE sq.r = 1;

我错过了什么吗?也许这不是窗口函数的正确位置?

mysql mariadb
  • 1 1 个回答
  • 1291 Views

1 个回答

  • Voted
  1. Best Answer
    Lennart - Slava Ukraini
    2020-12-15T11:43:32+08:002020-12-15T11:43:32+08:00

    我不确定我是否理解这个问题,但我会试一试。这将满足您的样本数据和预期结果:

    select contact_id, email_id as email_id, email 
    from (
        select contact_id, id as email_id, email
         , row_number() over (partition by contact_id 
                              order by is_primary desc) as rn
        from email
        where email <> ''
    ) as t 
    where rn = 1; 
    

    由于您使用 row_number 枚举结果集,我不确定您为什么需要 first_value。

    正如您所指出的,FIRST_VALUE 不会以任何方式过滤结果集,它只是使用第一个值扩展每一行。

    • 1

相关问题

  • 我在哪里可以找到mysql慢日志?

  • 如何优化大型数据库的 mysqldump?

  • 什么时候是使用 MariaDB 而不是 MySQL 的合适时机,为什么?

  • 组如何跟踪数据库架构更改?

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目

    • 12 个回答
  • Marko Smith

    如何让sqlplus的输出出现在一行中?

    • 3 个回答
  • Marko Smith

    选择具有最大日期或最晚日期的日期

    • 3 个回答
  • Marko Smith

    如何列出 PostgreSQL 中的所有模式?

    • 4 个回答
  • Marko Smith

    列出指定表的所有列

    • 5 个回答
  • Marko Smith

    如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

    • 4 个回答
  • Marko Smith

    你如何mysqldump特定的表?

    • 4 个回答
  • Marko Smith

    使用 psql 列出数据库权限

    • 10 个回答
  • Marko Smith

    如何从 PostgreSQL 中的选择查询中将值插入表中?

    • 4 个回答
  • Marko Smith

    如何使用 psql 列出所有数据库和表?

    • 7 个回答
  • Martin Hope
    Jin 连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane 如何列出 PostgreSQL 中的所有模式? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh 为什么事务日志不断增长或空间不足? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland 列出指定表的所有列 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney MySQL 能否合理地对数十亿行执行查询? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx 如何监控大型 .sql 文件的导入进度? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison 你如何mysqldump特定的表? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 对 SQL 查询进行计时? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas 如何从 PostgreSQL 中的选择查询中将值插入表中? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 列出所有数据库和表? 2011-02-18 00:45:49 +0800 CST

热门标签

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve