我有带有复合非聚集索引的大型事实表,如下所示:
NONCLSUTERED INDEX (OrderDate,OrderType,ClientKey,ItemKey,CustomerKey)
以“Key”结尾的列是 varchar(50) 列,但它们存储 20-30 个字符的字符串。
从长远来看,我是否需要担心索引中的 varchar 列的长度实际上是不同的?当数百万行合并到这些表中时,我会得到更多的页面拆分、更慢的性能吗? https://stackoverflow.com/questions/59667/what-are-the-use-cases-for-selecting-char-over-varchar-in-sql
由于列的长度不同,Sql Server 引擎是否更难使用该索引找出计划?我读到 CHAR 更好,因为它的大小固定,并且 db 引擎更容易计算,因此它的性能更好。有那么重要吗?
使用 SHA2_256 函数单独散列这些“Key”列是否值得,所以它们变成固定大小的 BINARY(32)?
NONCLSUTERED INDEX (OrderDate,OrderType,HASHEDClientKey,HASHEDItemKey,HASHEDCustomerKey)
我做了我的测试,至少回答了性能问题,并且没有看到哈希键比 varchar 有任何性能优势。事实上,计算哈希并将每个额外的 32 个字节存储在原始“Key”列旁边是一个很大的开销。
我无法测试的是,当我每天将数百万行合并到表中时,这些 varchar 索引将如何表现?
从性能和维护的角度来看,您会选择哪一个?
虽然某些 RDBMS 可能被调整为与固定长度字符串更好地交互(我似乎记得 DB2/MVS 可能在固定长度字符串方面做得更好,但我在 1996 年了解到这一点,它是大型机 DB2,所以不确定是否如此应用于 Unix 或 Windows 上的 DB2),如果 using
CHAR(50)
除了降低性能之外,我会感到震惊,VARCHAR(50)
因为大多数值只使用 20-30 字节。使用CHAR(50)
占用更多空间,减少了适合数据页的行数,增加了数据页数,在查询数据时占用了缓冲池(即RAM)中的更多空间,加上备份和备份所需的时间更长恢复。而且,如果我没记错的话,它还会增加内存授予(即每个查询请求的 RAM),因为它将请求每个字段 50 个字节而不是 25 个(我相信它请求可变长度字段的最大大小的 50%)。要更全面地了解使用比您需要的更多空间的下游影响,请参阅:磁盘便宜!奥利?.话虽如此,在
VARCHAR(50)
和之间CHAR(50)
,我会选择:两者都不是!鉴于列的名称,我猜这些实际上是维度?过滤二进制/数字值比过滤字符串快得多(我稍后会提到一个例外)。根据客户、客户和项目随着时间的推移会有多少潜在值,我将使用其中一个INT
,或者,如果确实需要,然后BIGINT
作为客户、客户和项目维度的键,并将这些数字键值存储在这里.至少,我会将列上的排序规则更改为,因为
VARCHAR
您Latin1_General_100_BIN2
显然不需要区分大小写或重音,否则使用 SHA-256 哈希的想法甚至不是一个选项。这至少应该能够以几乎与INT
or一样快的速度过滤BIGINT
(我说“几乎”只是因为再次为 3 列存储 20-30 字节值而不是为相同的 3 列存储 4 或 8 字节值的效果) ,当考虑数百万/十亿行时)。我强烈建议不要在这里使用任何类型的哈希值。你不仅会使表格膨胀(即降低性能),而且你会失去这些值的任何意义,因此要么需要在事实表中存储这 3 列的非散列值(即疯狂)或者需要回溯到维度表(在这种情况下,使用
INT
或使用BIGINT
4 或 8 个字节加上没有计算开销,您将一无所获!)。