AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / dba / 问题 / 121238
Accepted
Juan Velez
Juan Velez
Asked: 2015-11-17 06:52:26 +0800 CST2015-11-17 06:52:26 +0800 CST 2015-11-17 06:52:26 +0800 CST

以编程方式查找创建唯一复合键所需的最小字段集

  • 772

我正在将来自不同来源的平面文件导入 SQL Server 中的表中。我正在使用提取中的字段组合创建一个复合主键,这将为我提供每一行的唯一键。

我现在的做法是从 1 个字段开始,然后继续连接字段,直到找到一个对所有记录都是唯一的键。这可能会有点耗时,或者我最终可能会连接比我真正需要的更多的列来获取唯一键。

是否有某种 SQL 脚本可以在表上运行,它可以为我提供最少数量的字段(名称),我需要连接以获得唯一键?因此,如果表中有 1 个字段对所有记录都是唯一的,则将返回该 1 个字段名称。如果我需要连接 [memberid]、[claimid] 和 [date of service] 以获得唯一键,那么这 3 个字段名称将是脚本的结果。

sql-server database-design
  • 4 4 个回答
  • 1891 Views

4 个回答

  • Voted
  1. Dave
    2015-11-17T08:54:04+08:002015-11-17T08:54:04+08:00

    虽然评论和 srutzky 提供了一些很好的建议,但有一个工具完全适合您的情况。SSISData Profiling Task旨在识别潜在的主键(用于多列),同时为您的数据提供许多其他有用的见解。

    只需创建一个新的 SSIS 包,添加任务,然后使用类似向导的界面来分析您的数据。在您可以访问的地方创建一个新的输出文件,Quick Profile...然后从所需的数据库和表中选择并分析适当的信息。

    在此处输入图像描述

    完成后运行包并返回组件以选择Open Profile Viwer...并查看所有令人兴奋的数据!当请求多达 7 列作为候选键考虑(未显示)时,该工具为我的一个三列 PK 事实表提供了 96% 的匹配。

    在此处输入图像描述

    为了清楚起见,我绝对同意业务规则应该确定数据的唯一性......仅仅因为您找到适合您的数据的列组合以实现唯一性并不一定意味着它有任何意义。=)

    • 5
  2. Best Answer
    Solomon Rutzky
    2015-11-17T07:43:39+08:002015-11-17T07:43:39+08:00

    我正在使用提取中的字段组合创建一个复合主键,这将为我提供每一行的唯一键。

    嗯,这不完全是主键的用途。是的,它们确实唯一标识每一行,但它们也是支持同级表和子表的关系的基础。

    是否有某种 SQL 脚本可以在表上运行,它可以为我提供最少数量的字段(名称),我需要连接以获得唯一键?

    不在您已经在做的事情之外,尽管形式可能略有不同,例如可能将数据加载到没有定义键或唯一索引或唯一约束的表中,然后尝试创建 PK 或唯一(索引 | 约束)关于各种领域的组合。在任何一种情况下,您可能一开始都不应该这样做。

    一般来说,这种方法存在一些问题:

    • 如果有多个唯一性选项怎么办?一个或多个单独字段和/或一组或多组多个字段的任何组合?FieldA可能是唯一的,FieldD+FieldH可能是唯一的。然后怎样呢?
    • 如果没有单个字段或字段组合是唯一的怎么办?如果使用所有字段仍然无法让您获得独特性,您的计划是什么?
    • 导入过程中的不良数据和/或错误怎么办?由于不知道您一开始可以信任多少数据,因此扫描传入的数据非常容易出错。您的系统需要了解传入数据的好坏,而不仅仅是假设它是好的,并围绕可能很容易成为外部系统导出过程中的错误的业务规则(因为从来没有发生过 ;-) .
    • 这些导入表中的任何一个是否应该相互关联?如果是这样,尝试以编程方式查找唯一性可能会为应该相关但现在不能的表选择不同的字段,因为在至少一个表中的多个字段组合中找到唯一性,并且该过程在之前找到不兼容的组合相关的组合。
    • 你如何决定类型是什么?怎么样0x02FB4C97?那是一个VARBINARY还是一串十六进制字节?怎么样123456?那是INT, BIGINT, VARCHAR, DATETIME(朱利安格式),VARBINARY(没有前导0x但没有A-F帮助决定)?
    • 当一个或多个列中的“数据”发生根本变化但出于好的/自然原因时会发生什么?如果有一个当前为空的字段并且您认为它是一个字符串但它确实是一个尚未使用的日期字段,或者自然NULL用于您正在查看的特定导出,该怎么办?或者可变长度列的最大长度呢?他们目前仅用于 5 位数字但后来开始将其用于实际评论的“评论”字段呢?
    • 正如@MaxVernon 在对问题的评论中提到的那样,随着新数据的出现,字段的唯一性可能会发生变化,因为您并不真正了解管理数据如何真实存在的规则。

    所以这归结为:定义 PK 的实际目标是什么?你想通过这样做来完成什么?您是否有理由不只是添加一个IDENTITY字段,然后在所有导入的字段中删除重复项(全部减去该IDENTITY字段)?

    您确实需要首先更多地了解数据的真实性质,然后构建一个表来保存具有与数据应该如何存在相匹配的键和约束的数据,而不一定是它如何存在。

    • 3
  3. Marco
    2015-11-17T07:00:28+08:002015-11-17T07:00:28+08:00

    不要认为有这个脚本。它需要在输入数据之前决定/定义。否则,它可能会阻止您的应用程序运行。

    通常一个表需要 1 个字段是唯一的。只有当您创建一个表来链接 2 个不同的表(对于 N 到 M)关系时,您才需要 M 和 N 键来使其唯一。也有例外,但由设计者决定哪些字段构成唯一键。数据可以增长,唯一性也可以增长。

    • 0
  4. Raphael
    2016-11-16T08:59:45+08:002016-11-16T08:59:45+08:00

    尽管我同意一些帖子,键应该由业务案例定义,但在我看来,这似乎是从数据库管理员的角度来看的观点。

    从数据分析的角度来看,您可能面临一个静态数据集,您想要分析这些组合键可能很有趣且有用。想象一下,您发现了一个数据子集,并且想知道决定它的关键字段是什么。例如,假设您找到了某些产品组合的订单子集,并且您想知道最能定义这些订单的参数是什么。
    当然,您可以通过它们的订单 ID 来定义它们,但可能会有更小更有趣的组合键,例如客户的年龄和下订单的时间。

    这是一个典型的聚类/分类问题。

    • -1

相关问题

  • 我需要为每种类型的查询使用单独的索引,还是一个多列索引可以工作?

  • 什么时候应该使用唯一约束而不是唯一索引?

  • 死锁的主要原因是什么,可以预防吗?

  • 在数据仓库中实现多对多关系有哪些方法?

  • 如何确定是否需要或需要索引

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目

    • 12 个回答
  • Marko Smith

    如何让sqlplus的输出出现在一行中?

    • 3 个回答
  • Marko Smith

    选择具有最大日期或最晚日期的日期

    • 3 个回答
  • Marko Smith

    如何列出 PostgreSQL 中的所有模式?

    • 4 个回答
  • Marko Smith

    列出指定表的所有列

    • 5 个回答
  • Marko Smith

    如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

    • 4 个回答
  • Marko Smith

    你如何mysqldump特定的表?

    • 4 个回答
  • Marko Smith

    使用 psql 列出数据库权限

    • 10 个回答
  • Marko Smith

    如何从 PostgreSQL 中的选择查询中将值插入表中?

    • 4 个回答
  • Marko Smith

    如何使用 psql 列出所有数据库和表?

    • 7 个回答
  • Martin Hope
    Jin 连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane 如何列出 PostgreSQL 中的所有模式? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh 为什么事务日志不断增长或空间不足? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland 列出指定表的所有列 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney MySQL 能否合理地对数十亿行执行查询? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx 如何监控大型 .sql 文件的导入进度? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison 你如何mysqldump特定的表? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 对 SQL 查询进行计时? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas 如何从 PostgreSQL 中的选择查询中将值插入表中? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 列出所有数据库和表? 2011-02-18 00:45:49 +0800 CST

热门标签

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve