如何确定是否需要或需要索引

Question

Avi

Asked: 2020-02-22 04:02:42 +0800 CST2020-02-22 04:02:42 +0800 CST 2020-02-22 04:02:42 +0800 CST

使用 varchar 列的复合索引性能

772

我有带有复合非聚集索引的大型事实表，如下所示：

NONCLSUTERED INDEX (OrderDate,OrderType,ClientKey,ItemKey,CustomerKey)

以“Key”结尾的列是 varchar(50) 列，但它们存储 20-30 个字符的字符串。

从长远来看，我是否需要担心索引中的 varchar 列的长度实际上是不同的？当数百万行合并到这些表中时，我会得到更多的页面拆分、更慢的性能吗？ https://stackoverflow.com/questions/59667/what-are-the-use-cases-for-selecting-char-over-varchar-in-sql

由于列的长度不同，Sql Server 引擎是否更难使用该索引找出计划？我读到 CHAR 更好，因为它的大小固定，并且 db 引擎更容易计算，因此它的性能更好。有那么重要吗？

使用 SHA2_256 函数单独散列这些“Key”列是否值得，所以它们变成固定大小的 BINARY(32)？

NONCLSUTERED INDEX (OrderDate,OrderType,HASHEDClientKey,HASHEDItemKey,HASHEDCustomerKey)

我做了我的测试，至少回答了性能问题，并且没有看到哈希键比 varchar 有任何性能优势。事实上，计算哈希并将每个额外的 32 个字节存储在原始“Key”列旁边是一个很大的开销。

我无法测试的是，当我每天将数百万行合并到表中时，这些 varchar 索引将如何表现？

从性能和维护的角度来看，您会选择哪一个？

1 个回答

Voted

Solomon Rutzky · Answer 1 · 2020-02-22T10:44:39+08:00

虽然某些 RDBMS 可能被调整为与固定长度字符串更好地交互（我似乎记得 DB2/MVS 可能在固定长度字符串方面做得更好，但我在 1996 年了解到这一点，它是大型机 DB2，所以不确定是否如此应用于 Unix 或 Windows 上的 DB2），如果 usingCHAR(50)除了降低性能之外，我会感到震惊，VARCHAR(50)因为大多数值只使用 20-30 字节。使用CHAR(50)占用更多空间，减少了适合数据页的行数，增加了数据页数，在查询数据时占用了缓冲池（即RAM）中的更多空间，加上备份和备份所需的时间更长恢复。而且，如果我没记错的话，它还会增加内存授予（即每个查询请求的 RAM），因为它将请求每个字段 50 个字节而不是 25 个（我相信它请求可变长度字段的最大大小的 50%）。要更全面地了解使用比您需要的更多空间的下游影响，请参阅：磁盘便宜！奥利？.

话虽如此，在VARCHAR(50)和之间CHAR(50)，我会选择：两者都不是！鉴于列的名称，我猜这些实际上是维度？过滤二进制/数字值比过滤字符串快得多（我稍后会提到一个例外）。根据客户、客户和项目随着时间的推移会有多少潜在值，我将使用其中一个INT，或者，如果确实需要，然后BIGINT作为客户、客户和项目维度的键，并将这些数字键值存储在这里.

至少，我会将列上的排序规则更改为，因为VARCHAR您Latin1_General_100_BIN2显然不需要区分大小写或重音，否则使用 SHA-256 哈希的想法甚至不是一个选项。这至少应该能够以几乎与INTor一样快的速度过滤BIGINT（我说“几乎”只是因为再次为 3 列存储 20-30 字节值而不是为相同的 3 列存储 4 或 8 字节值的效果），当考虑数百万/十亿行时）。

我强烈建议不要在这里使用任何类型的哈希值。你不仅会使表格膨胀（即降低性能），而且你会失去这些值的任何意义，因此要么需要在事实表中存储这 3 列的非散列值（即疯狂）或者需要回溯到维度表（在这种情况下，使用INT或使用BIGINT4 或 8 个字节加上没有计算开销，您将一无所获！）。

使用 varchar 列的复合索引性能

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

使用 varchar 列的复合索引性能

1 个回答

相关问题