关于【greatest-n-per-group】的问题- 第1页

srgbnd

Asked: 2022-08-19 05:11:03 +0800 CST

如何连接两个表 A 和 B 并获得 B 的最新状态？

0

我有两张桌子：A 和 B

一个

provider_id	日期
111	日期
222	日期
333	日期

乙

provider_id	地位	日期
111	初始化	日期
111	发布	日期
222	失败的	日期

我想要的结果

provider_id	地位	日期
111	发布	一个约会
222	失败的	一个约会
333	无效的	一个约会

我尝试过的事情之一是左连接

select * 
from "A" 
  left join "B" on "B"."provider_id" = "A"."provider_id" 
order by "A"."date" desc;

但我得到了基于重复的记录status

provider_id	地位	日期
111	初始化	日期
111	发布	日期
222	失败的	日期
333	无效的	日期

33a5G7s9t1e3L

Asked: 2022-06-24 09:32:27 +0800 CST

仅在特定日期范围内的每一天获取第一条消息

-1

表messages：

conv_id	用户身份	内容	发送时间
1	001	1st_msg	01-01-1990 00:00:00
2	002	2nd_msg	02-01-1990 00:00:00

我们如何选择conv_id每天在对话中发送的第一条消息和第一个回复（）？

笔记：

可以有很多用户。
一个用户可以发送多条消息。
这是一个人的数据集，只有两个人在聊天。
一整天，多条消息被交换。
第一条消息可以定义为第一个用户在第 1 天内的最短发送时间。
第一次回复可以定义为第二个用户在第一天的最短发送时间。

sparkle

Asked: 2022-02-19 07:23:50 +0800 CST

使用生成时间序列回填数据

2

我有一张这样的桌子：

日期	团队名字	价值
2022-01-01	一个	1.0
2022-01-15	一个	0.5
2022-01-31	一个	0.2

但这仅包含 3 天。我需要一个包含完整日历日期的表格，一年中的每一天都有一行，其中值是最后一个可用的。
例如，从 2022 年 1 月 1 日到 1 月 14 日的所有记录都具有值 1.0（范围为group_name“A”）。

我试过使用LAST_VALUE()，但它不工作。

WITH dates AS (
    
    SELECT 
        date::date
    FROM generate_series ( '2022-01-01'::timestamp, '2022-01-31'::timestamp, '1 day'::interval) date

), incomplete_table AS (
     SELECT * FROM (VALUES 
        ('2022-01-01'::date, 'a', 1),
        ('2022-01-15'::date, 'a', 0.5), 
        ('2022-01-31'::date, 'a', 0.2), 
        ('2022-01-02'::date, 'b', 0.1),
        ('2022-01-10'::date, 'b', 0.15),
        ('2022-01-20'::date, 'b', 0.15)
    ) AS t (date,group_name, value)
)
SELECT
    dates.date,
    group_name, 
    value,
    LAST_VALUE(value) OVER (ORDER BY dates.date DESC) as last_value_window
FROM dates
LEFT JOIN incomplete_table ON incomplete_table.date = dates.date
ORDER BY dates.date DESC;

Stefanie

Asked: 2022-01-15 06:46:52 +0800 CST

根据条件选择一组行中的特定列值

0

我正在使用 mariadb 服务器版本 10.6.4。

这是我的表定义：

CREATE TABLE `tmp_dba` (
  `ID` bigint(20) NOT NULL AUTO_INCREMENT,
  `case_id` bigint(20) DEFAULT NULL,
  `client_id` bigint(20) NOT NULL,
  `arrival` date DEFAULT NULL,
  `departure` date DEFAULT NULL,
  PRIMARY KEY (`ID`)
)

以下是一些示例数据：

INSERT INTO `tmp_dba` VALUES
(1,10,1000,'2018-10-02','2019-04-25'),
(2,10,1000,'2019-04-26','2019-05-01'),
(3,10,1000,'2019-05-02',NULL),
(4,20,2000,'2018-11-21',NULL),
(5,20,2001,'2018-11-21',NULL),
(6,20,2002,'2018-11-21',NULL),
(7,30,3000,'2019-03-04','2022-01-01'),
(8,30,3001,'2019-03-04','2022-01-01'),
(9,30,3002,'2019-03-04','2022-01-01'),
(10,30,3003,'2019-03-04','2022-01-01'),
(11,30,3004,'2019-03-04','2022-01-01');

我想要实现的是确定每组 case_id 和 client_id 的 MIN(arrival)，如果离开不为空，则应显示 MAX(departure)，否则为空。

我想最终每个客户只有一行提供上述数据。

例如对于 case_id = 10 我想看到 1 行这样： 10;1000;2018-10-02;NULL。

对于 case_id = 20，结果应该是 4 行，因为 case_id 和 client_id 有 4 种不同的组合。

对于 case_id = 30，应该显示 5 行，因为 case_id 和 client_id 有 5 种不同的组合。

使用 group by 时我一定做错了什么。

解决方案

SELECT 
-- First solution, but wrong, GROUP_CONCAT(ID) avoids error below
-- ID, case_id, client_id, <-- only_full_group_by - error
GROUP_CONCAT(ID), case_id, client_id,
MIN(arrival) AS arrival,
IF(COUNT(departure) = COUNT(*), MAX(departure), NULL) AS departure
FROM tmp_dba
GROUP BY case_id, client_id
ORDER BY case_id, client_id

非常感谢您的帮助。

斯蒂菲

gbox

Asked: 2022-01-10 00:47:12 +0800 CST

根据条件合并重复项

0

我在 PostgreSQL 数据库中有下表

id | value_1 | value_2
-----------------------------
1  | 100     | 10
1  | NULL    | 20
2  | 100     | 20
3  | 100     | 12
4  | 100     | 16
5  | NULL    | 200
5  | 400     | 200
5  | 580     | 200

我想保留具有给定最大值的记录value_1并删除所有其他重复的记录（具有相同的id），以便查询将表减少到：

id | value_1 | value_2
-----------------------------
1  | 100     | 10
2  | 100     | 20
3  | 100     | 12
4  | 100     | 16
5  | 580     | 200

Jeffrey Simon

Asked: 2021-03-18 13:43:31 +0800 CST

每组最大 n 的变化，其中需要使用指示器的整个表，而不仅仅是每组最大的行

1

我有一个查询，它返回一些对列和日期进行分组的行。我希望该查询在列中指示每个组中的哪一个具有最大的日期。

关于如何做“每组最大 n”的问题有很多，但这些问题只需要每个组中具有最大价值的行。我想要所有的行，并且只是指出哪一个是最大的。

例如，这是一个表：

ID	代表	日期
1	27058	2020-11-16
2	27058	2020-11-09
3	27058	2020-10-30
4	46029	2020-11-03

我想要以下内容：

ID	代表	日期	最伟大的
1	27058	2020-11-16	1
2	27058	2020-11-09	0
3	27058	2020-10-30	0
4	46029	2020-11-03	1

我已经尝试了一些 best-n-per-group 方法来添加“最大”指标。但是由于这些尝试都集中在唯一具有最大值的行上，因此当像“table2.date IS NULL”这样的 where 子句的部分被删除时，所有连接组合都会添加额外的行。

这是一个不起作用的实验的例子。它尝试使用每个组的最大 n 个，但注释掉 IS NULL 行：

SELECT DISTINCT m1.usermessageid, m1.repid, m1.sender_role, m1.message, m1.datesent, m2.datesent
FROM usermessage m1
LEFT JOIN usermessage m2 ON m1.principalid = m2.principalid and m1.repid = m2.repid AND m1.datesent < m2.datesent
WHERE m1.principalid = 99831
AND m1.repid IN (21600,99214,27058,97360,92678,96184,55429,46029)
# AND m2.datesent IS NULL
ORDER BY m1.datesent desc;

我想避免为了获得最大的行而必须添加额外的查询。

PaxPrz

Asked: 2021-03-15 23:06:30 +0800 CST

根据优先级从数组中取消嵌套 id，不重复

4

这是我的数据库的示例架构：

Priority  | Productive | UnProductive | Neutral |
-------------------------------------------------
  High    |   [1, 2]   |      []      |  [4, 5] |
  Medium  |   [3, 4]   |    [5, 7]    |   [2]   |
  Low     |     [1]    |    [2, 6]    |    []   |

注意：这些数字实际上是我数据库中的 UUID，在同一行中不会重复任何数字。

我想从中取消嵌套类别productive，unproductive这样neutral：

从 1 到 7 的数字都不重复，并且
如果该数字已被High Priority 捕获，它将不会被Medium捕获， Low也是如此。

预期输出：

Productive: [1, 2, 3]  # no 4 because it have been captured by neutral High priority
UnProductive: [7, 6]  # no 5 and 2 because it have been captured before
Neutral: [4, 5]  # no 2 because it is caputed before

Grzegorz-so

Asked: 2020-10-15 05:23:08 +0800 CST

如何选择在其他列中具有最大值的行 - PostgreSQL？

0

我刚开始使用 PostgreSQL，我敢打赌我的 qs 有一个简单的答案。

我有这样的看法：

 county - candidate - votes
Abbeville - John Kasich - 157
Abbeville - Ben Carson - 305
Abbeville - Ted Cruz - 876
Abbeville - Jeb Bush - 236
Abbeville - Hillary Clinton - 1501
Abbeville - Marco Rubio - 740
Abbeville - Bernie Sanders - 312
Abbeville - Donald Trump - 1353
Abbot - Hillary Clinton - 0
Abbot - Bernie Sanders - 1
Abington - Ben Carson - 53
Abington - John Kasich - 299
Abington - Bernie Sanders - 1352

我想写一个查询，返回每个县的选票最多的人，例如：

    county - candidate - votes
    Abbeville - Hillary Clinton - 1501
    Abbot - Bernie Sanders - 1 
    Abington - Bernie Sanders - 1352

我试过这个查询，但不能返回正确的候选人：

select
distinct on (county) county , candidate ,max(votes) over(partition by county)
from primary_results_csv prc 
group by county, candidate, votes
order by county

提前感谢您的帮助。

AnonymousCoward

Asked: 2020-08-11 15:10:54 +0800 CST

删除表上的所有记录，每个用户的最新 10 条记录除外

2

我有一个活动表，其中包含对用户表的外键引用。一个用户可以有很多活动，而我有一份每天都会填充他们的活动的工作。该作业运行后，我想运行一个 SQL 查询，该查询将删除每个用户最旧的记录并保留最新的 10 条记录。这是架构：

用户

id name
1  Jimmy
2  Johnny

用户活动

id user_id activity date
1  1       foo      2020-08-07 00:00:00
2  1       bar      2020-08-08 00:00:00
3  1       baz      2020-08-09 00:00:00
4  2       foo      2020-08-07 00:00:00
5  2       bar      2020-08-08 00:00:00
6  2       baz      2020-08-09 00:00:00

如何编写查询以将每个用户的记录截断到最新的 10 条？

tony

Asked: 2020-07-07 19:23:47 +0800 CST

总结以前日期的所有唯一值

1

假设，为简单起见，我有下表：

id      amount     p_id     date
------------------------------------------------
1       5          1        2020-01-01T01:00:00
2       10         1        2020-01-01T01:10:00 
3       15         2        2020-01-01T01:20:00 
4       10         3        2020-01-01T03:30:00 
5       10         4        2020-01-01T03:50:00 
6       20         1        2020-01-01T03:40:00

这是我想要的示例响应：

{
 "2020-01-01T01:00:00": 25, -- this is from adding records with ids: 2 and 3
 "2020-01-01T03:00:00": 55  -- this is from adding records with ids: 3,4,5 and 6
}

我想得到按小时分组sum(amount)的所有 unique 的总数（）。p_id

每个选择的行p_id是最新的date。因此，例如，上述响应中的第一个值不包括在内id 1，因为记录id 2具有相同p_id且该date行上的记录较晚。

一件棘手的事情是我想包括所有amount每个人的总和，p_id如果他们date在提出的时间之前。因此，例如，在响应的第二个值（键为“2020-01-01T03:00:00”）中，即使id 3时间戳在不同的时间，它也是最新的，p_id 2因此包含在总和中“2020-01-01T03:00:00”。但是具有相同id 6覆盖的行。id 2p_id 1

换句话说：到目前为止，总是取amount每个最新的，并计算表中每个不同小时的总和。p_id

如何连接两个表 A 和 B 并获得 B 的最新状态？

仅在特定日期范围内的每一天获取第一条消息

使用生成时间序列回填数据

根据条件选择一组行中的特定列值

更多信息：

解决方案

根据条件合并重复项

每组最大 n 的变化，其中需要使用指示器的整个表，而不仅仅是每组最大的行

根据优先级从数组中取消嵌套 id，不重复

如何选择在其他列中具有最大值的行 - PostgreSQL？

删除表上的所有记录，每个用户的最新 10 条记录除外

总结以前日期的所有唯一值

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

问题[greatest-n-per-group](dba)

更多信息：

解决方案