我们需要创建 nvarchar 数据的哈希值以进行比较。T-SQL 中有多种哈希算法可用,但在这种情况下,最好选择哪一种?
我们要确保对于两个不同的 nvarchar 值具有重复哈希值的风险最小。根据我对互联网的研究,MD5 似乎是最好的。那正确吗?MSDN 告诉我们(下面的链接)有关可用算法的信息,但没有说明哪种算法适用于什么条件?
我们需要在两个 nvarchar(max) 列上连接两个表。正如您可以想象的那样,查询需要时间来执行。我们认为最好保留每个 nvarchar(max) 数据的哈希值并对哈希值进行连接,而不是 blob 的 nvarchar(max) 值。问题是哪种哈希算法提供了唯一性,这样我们就不会遇到一个哈希值用于多个 nvarchar(max) 的风险。
该
HASHBYTES
函数最多只需要 8000 个字节作为输入。因为您的输入可能比这更大,所以无论选择哪种算法,在被散列的字段范围内的重复项都会导致冲突。仔细考虑您计划散列的数据范围——使用前 4000 个字符是显而易见的选择,但可能不是您数据的最佳选择。无论如何,由于哈希函数是什么,即使输入是 8000 字节或更少,确保结果 100% 正确性的唯一方法是在某个点比较基值(阅读:不一定是第一个)。时期。
业务将决定是否需要 100% 的准确性。这将告诉您(a)需要比较基值,或者(b)您应该考虑 不比较基值 - 应该牺牲多少准确性来换取性能。
虽然哈希冲突在唯一的输入集中是可能的,但无论选择何种算法,它们都是极其罕见的。在这种情况下使用散列值的整个想法是有效地将连接结果缩小到更易于管理的集合,而不一定要立即获得最终结果集合。同样,为了 100% 的准确度,这不能是该过程的最后一步。这个场景没有使用散列来加密,所以像 MD5 这样的算法可以正常工作。
我很难证明出于“准确性”目的而升级到 SHA-x 算法是合理的,因为如果企业要对 MD5 的微小碰撞可能性感到恐惧,他们很可能也会感到害怕SHA-x 算法也不完美。他们要么不得不接受轻微的不准确,要么要求查询是 100% 准确的,并接受相关的技术影响。我想如果 CEO 知道你使用 SHA-x 而不是 MD5 晚上睡得更好,那很好;在这种情况下,从技术角度来看,它仍然没有多大意义。
说到性能,如果表的读取频率很高,并且经常需要连接结果,请考虑实现索引视图以消除每次请求时都计算整个连接的需要。当然,您为此牺牲了存储空间,但为了提高性能,这可能是值得的,尤其是在需要 100% 准确度的情况下。
为了进一步阅读索引长字符串值,我发表了一篇文章,介绍了如何为单个表执行此操作的示例,并介绍了在尝试此问题的完整场景时要考虑的事项。
MD5 应该没问题,输出可以存储在二进制 (16) 中。即使物理样本量很大,碰撞的概率(参见生日悖论)仍然非常低。SHA-1 的输出占用 20 个字节,SHA-256 的输出占用 32 个字节。除非您拥有如此多的记录,以至于您的生日碰撞概率变得很大(物理上不可能或至少对于当前的硬件技术不切实际),否则它可能会没问题。
我会选择 SHA-1,它是可用算法中更好的一种,并且在所有算法中碰撞预期最少(2 ^ 51,而 MD5 为 2 ^ 20.96)。MD5 也被证明在某些情况下容易受到碰撞。
资料来源:
http://en.wikipedia.org/wiki/SHA-1 http://en.wikipedia.org/wiki/Comparison_of_cryptographic_hash_functions#Cryptanalysis http://en.wikipedia.org/wiki/MD5
我没有在答案中看到这一点,但根据MSDN:
我问了一个类似的问题,所以如果你想使用不推荐使用的函数,比如 MD5(如果你在 2016+),这取决于你。您可以进行测试以了解 MD5 和 SHA2 之间的存储和性能差异有多大。