SQL从一个表中获取另一个表中的多个条目的ID

Question

Pantea

Asked: 2024-11-11 21:10:37 +0800 CST2024-11-11 21:10:37 +0800 CST 2024-11-11 21:10:37 +0800 CST

查询删除包含 4 亿条记录的大表中 eff_date 较低的记录

772

我有一张具有以下结构的表格：

create table TEST_TAB
(
  activity_type CHAR(1),
  tracking_code NUMBER,
  eff_date      DATE
)

该表的示例数据：

insert into TEST_TAB (activity_type, tracking_code, eff_date)
values ('A', 1, to_date('01-11-2020', 'dd-mm-yyyy'));
insert into TEST_TAB (activity_type, tracking_code, eff_date)
values ('A', 1, to_date('02-01-2024', 'dd-mm-yyyy'));
insert into TEST_TAB (activity_type, tracking_code, eff_date)
values ('B', 2, to_date('01-08-2023', 'dd-mm-yyyy'));
insert into TEST_TAB (activity_type, tracking_code, eff_date)
values ('B', 2, to_date('02-08-2023', 'dd-mm-yyyy'));
insert into TEST_TAB (activity_type, tracking_code, eff_date)
values ('B', 2, to_date('03-08-2023', 'dd-mm-yyyy'));

这只是示例数据，原始表中的实际数据量接近 4 亿条记录。我需要做的是，对于每组activity_type, tracking_code，我需要保留具有最高“eff_date”的记录并删除其余记录。因此，对于，activity_type=A and tracking_code = 1我需要保留具有的记录eff_date = 1/2/2024并删除另一个记录。我现在有以下查询：

delete from test_tab
 where rowid in (select rid
                   from (select rowid as rid,
                                row_number() over(partition by activity_type, tracking_code order by eff_date desc) as row_num
                           from test_tab
                           )
                  where row_num > 1
                  )

但是这似乎很慢。您能提出更好的解决方案吗？原始表按 eff_date 进行分区，并在其余两列上建立索引。另一点是，单个组中每条记录的 eff_date 之间可能相差一年以上。

提前致谢

1 个回答

Voted

J.D. · Answer 1 · 2024-11-11T21:48:48+08:00

Best Answer

J.D.

2024-11-11T21:48:48+08:002024-11-11T21:48:48+08:00

由于您无论如何都打算删除至少一半的表，因此将要保留的行插入新表、删除旧表，然后重命名新表可能更简单、更快捷。然后，您可以将查询简化为单个操作，而无需GROUP BY任何连接，如下所示：

CREATE TABLE TEST_TAB2
AS
(
    SELECT
        activity_type,
        tracking_code,
        MAX(eff_date) AS eff_date
    FROM TEST_TAB
    GROUP BY activity_type, tracking_code
);

由于您已经有索引(activity_type, tracking_code)，因此上述查询应该是SARGable并且高性能的。

7

查询删除包含 4 亿条记录的大表中 eff_date 较低的记录

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

查询删除包含 4 亿条记录的大表中 eff_date 较低的记录

1 个回答

相关问题