AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / dba / 问题 / 14697
Accepted
DaveM
DaveM
Asked: 2012-03-10 01:41:09 +0800 CST2012-03-10 01:41:09 +0800 CST 2012-03-10 01:41:09 +0800 CST

多字段主键或“人为”“半人工”键的性能

  • 772

这不是关于在任何给定表中使用人工自动增量键与使用多字段“主键”的好处或其他方面的问题。任何想要搜索它们的人都可以轻松找到该讨论(或论点)并做出决定。

这个问题更多的是关于键的性能(或缺少键)

我是一名数据库管理员,当我创建表时,我尝试为表使用“自然”键。通常这是一组 2,3,有时是 4 个字段,它们充当给定表的主键。通常这些字段本质上是 Varchar,但很短(最多 10 或 15 个字符)。就我个人而言,我尽量让它们更短!

我的问题是这个。

想象一下,我有一个包含人口统计数据的表格。我可以确保我在每一行中具有唯一性的唯一方法是使用 FirstName FamilyName DateOfBirth PlaceOfBirth 的字段

(您可能想知道为什么我包含“出生地”,我知道另一个人(曾经住在附近 - 相同的电话号码,不同的拨号代码)与我分享了所有这些详细信息(我假设 PlaceOfBirth 不同,但我想我可以使用 MothersMaidenName ;) )

所以现在我有一个有趣的问题。

我可以使用一个更短的字段,它是通过连接 4 个主要字段中的信息创建的,例如: DateOfBirth First 2 characters of FirstName first 2 characters of FamilyName first 2 character of PlaceOfBirth

我的问题是这个。

与直接使用字段(即有多少列)相比,字段的连接在什么时候会提供性能改进。

我从搜索中知道,大多数 DBMS 都有一个“理论上的最大大小限制”,具体取决于创建的 B-Tree。我假设我在主键的长度/大小方面没有达到这个限制。

我考虑使用这种“人为”键的原因是:连接列中的信息很可能足以识别记录,而无需提取所有主键字段(这对性能更好还是没有?与使用所有 4 个主键字段相比有何不同?)

这显然是一个相当“理论”的问题,但我考虑过在一个最终有 4 个 varchar 字段的表上进行这种连接,很明显,只使用一个缩短版本就可以描述唯一性。显然,首先要努力创建这个领域,但在其他人看来,这种努力是否值得,在什么时候它会变得更有趣。

我已经搜索过这个,但我从来没有发现直接问过这个问题,它作为“自然”或“人工”主键讨论出现。

当然,如果这感觉像是“自然”或“人为”的关键讨论,请随意说出来。我的感觉是,这个“人为”的键会提供两者的优点。有没有人在现实世界的解决方案中使用过这个想法?

提前感谢您的想法。

大卫

编辑。我刚找到这个线程

https://stackoverflow.com/questions/3735390/best-primary-key-for-storing-urls

它似乎涵盖了类似的领域,我必须承认我没有想过将我的列“散列”在一起(主要是因为它们本质上很短),但我确实喜欢这个想法。我想你可以这样做并散列整行!

编辑2。

我回到这个问题只是想看看答案是否有任何变化或额外的评论。我已决定接受回复,但想指出,我发现所有回复对讨论条款都有帮助。

primary-key
  • 3 3 个回答
  • 3989 Views

3 个回答

  • Voted
  1. Best Answer
    gbn
    2012-03-10T01:55:49+08:002012-03-10T01:55:49+08:00

    我会斜着回答...

    自然键始终是自然键,应使用唯一约束或索引强制执行。这是从您的建模阶段流出的“主键”。

    自动编号/标识代理键的选择在实施阶段很重要,因为您的聚集索引有好有坏的选择(例如:SQL Server、Sybase、MySQL InnoDB、Oracle IOT)。

    也就是说,主键与您的聚集索引正交:不要混淆这两个问题

    在这方面,我建议使用人为的键不会比使用自动编号/身份列增加任何价值。您从自然键中丢失数据,可能不会是唯一的,同样不透明。

    FWIW,我也需要时使用代理键和复合键:

    • 一些自然键本身就很有用:ISO 货币和国家代码
    • 没有二级(非聚集)索引和子表的表不能从代理键中受益
    • 如果您有父子孙子,那么我通常需要加入父孙子:使用复合键我可以直接这样做。更简单的 JOIN,更简单的索引

    注意:这假设每个表都需要一个聚集索引

    dba.se 相关:SQL Server 主键/聚集索引设计决策

    • 5
  2. Tony Hopkinson
    2012-03-10T02:20:56+08:002012-03-10T02:20:56+08:00

    以我自己的经验,每次遇到这些人为设计的钥匙之一时,虽然这在纸上看起来像是一个好主意,但它们总是会引起问题。从本质上讲,如果家庭发生变化,即某人结婚或离婚,那么这就是一种非规范化的形式,现在你要么在两者都改变​​它,要么你失去了它是如何设计的。除非我被枪毙,否则我总是选择数据完整性而不是性能。

    • 0
  3. reach4thelasers
    2012-03-10T01:57:26+08:002012-03-10T01:57:26+08:00

    使用复合键或使用您建议的级联复合键将是非常糟糕的数据库架构。对于复合键,任何具有对您的人口统计数据的外键引用的表也需要列指向 FirstName FamilyName DateOfBirth PlaceOfBirth。

    将数据连接到一列是一个糟糕的主意 - 您将使用 VARCHAR(~256) 作为主键和外键引用。这将使您的索引变得庞大并且性能将受到影响。您还需要解析和连接以获取实际数据 - 这很容易出错,因为 Kevin Andersen New York 与 New York Kevin Andersen 不同。

    您应该使用代理键 - 在您的业务模型中没有上下文的键(long/bigint 或 GUID)。

    看看 Facebook 的数据模型:

    https://graph.facebook.com/cocacola

    请注意,ID 是一个代理键,由一个在数据中没有上下文的数字表示 - 40796308305

    • -1

相关问题

  • 为什么使用 int 作为查找表的主键?

  • 包含表的所有列的主键有什么好处吗?

  • 从复合键中删除字段并整理重复数据

  • 使用 UUID 或 GUID 作为主键有什么缺点?

  • 字符与整数主键

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    如何查看 Oracle 中的数据库列表?

    • 8 个回答
  • Marko Smith

    mysql innodb_buffer_pool_size 应该有多大?

    • 4 个回答
  • Marko Smith

    列出指定表的所有列

    • 5 个回答
  • Marko Smith

    从 .frm 和 .ibd 文件恢复表?

    • 10 个回答
  • Marko Smith

    如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

    • 4 个回答
  • Marko Smith

    你如何mysqldump特定的表?

    • 4 个回答
  • Marko Smith

    如何选择每组的第一行?

    • 6 个回答
  • Marko Smith

    使用 psql 列出数据库权限

    • 10 个回答
  • Marko Smith

    如何从 PostgreSQL 中的选择查询中将值插入表中?

    • 4 个回答
  • Marko Smith

    如何使用 psql 列出所有数据库和表?

    • 7 个回答
  • Martin Hope
    Mike Walsh 为什么事务日志不断增长或空间不足? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland 列出指定表的所有列 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney MySQL 能否合理地对数十亿行执行查询? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx 如何监控大型 .sql 文件的导入进度? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison 你如何mysqldump特定的表? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    pedrosanta 使用 psql 列出数据库权限 2011-08-04 11:01:21 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 对 SQL 查询进行计时? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas 如何从 PostgreSQL 中的选择查询中将值插入表中? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 列出所有数据库和表? 2011-02-18 00:45:49 +0800 CST
  • Martin Hope
    bernd_k 什么时候应该使用唯一约束而不是唯一索引? 2011-01-05 02:32:27 +0800 CST

热门标签

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve