Oracle 中的数据库备份 - 导出数据库还是使用其他工具？

Question

Asked: 2023-12-11 18:51:58 +0800 CST2023-12-11 18:51:58 +0800 CST 2023-12-11 18:51:58 +0800 CST

Oracle语句插入重复数据

772

我正在使用此语句从另一个表插入记录：

SQL> insert into city(city_code, country_code, city)
select distinct(city_code), country_code, city_name
from airport_final;

  2    3  
9012 rows created.

我发现很多重复的记录：

SQL> SELECT city_code, COUNT(city_code)
FROM airport_final
GROUP BY city_code
HAVING COUNT(city_code) > 1;

VRA        2
WBU        3
YMQ        4
YPR        2

330 rows selected.

我不知道我正在选择不同的记录，但为什么它会插入重复项

此致

1 个回答

Voted

Paul W · Answer 1 · 2023-12-11T22:53:56+08:00

DISTINCT对整行（列出的所有列）而不是一列进行操作，因此它不能用于仅获取一列的唯一性。

您需要使GROUP BY键保持唯一，并对其他属性使用某种聚合函数：

insert into city(city_code, country_code, city)
select city_code, 
       MAX(country_code), 
       MAX(city_name)
from airport_final
group by city_code

可以使用窗口函数完成类似的操作ROW_NUMBER，您可以按照您希望在子句中实现的优先级逻辑，确保所有非键属性都从同一行获取ORDER BY：

insert into city(city_code, country_code, city)
select city_code,
       country_code,
       city_name
  from (select city_code, 
               country_code, 
               city_name,
               ROW_NUMBER() OVER (PARTITION BY city_code ORDER BY city_name) seq
        from airport_final)
  where seq = 1

实际上，您可能有脏数据，对于每个城市代码代表的城市名称和/或国家/地区存在分歧。您将面临确定哪个关联正确、哪个关联不正确的问题。在上面的例子中，我只是采用了按字母顺序排名最低的城市名称，但适当的逻辑可能有很大不同。这将取决于您和您的数据。但是，如果您想要一个由城市代码键入的表格，则必须在不同的关联之间进行选择。您可能会发现无法使用代码进行操作，而必须将其弹出到 Excel 中并手动删除错误条目，并使用人类智能进行清理。虽然这很不幸，但这是在不遵守规范化规则时所发生的情况中吸取的教训。

Oracle语句插入重复数据

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

Oracle语句插入重复数据

1 个回答

相关问题