AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / dba / 问题 / 35219
Accepted
Sky
Sky
Asked: 2013-02-22 21:44:02 +0800 CST2013-02-22 21:44:02 +0800 CST 2013-02-22 21:44:02 +0800 CST

在 HashBytes 函数中选择正确的算法

  • 772

我们需要创建 nvarchar 数据的哈希值以进行比较。T-SQL 中有多种哈希算法可用,但在这种情况下,最好选择哪一种?

我们要确保对于两个不同的 nvarchar 值具有重复哈希值的风险最小。根据我对互联网的研究,MD5 似乎是最好的。那正确吗?MSDN 告诉我们(下面的链接)有关可用算法的信息,但没有说明哪种算法适用于什么条件?

哈希字节 (Transact-SQL)

我们需要在两个 nvarchar(max) 列上连接两个表。正如您可以想象的那样,查询需要时间来执行。我们认为最好保留每个 nvarchar(max) 数据的哈希值并对哈希值进行连接,而不是 blob 的 nvarchar(max) 值。问题是哪种哈希算法提供了唯一性,这样我们就不会遇到一个哈希值用于多个 nvarchar(max) 的风险。

sql-server sql-server-2008-r2
  • 4 4 个回答
  • 19380 Views

4 个回答

  • Voted
  1. Best Answer
    Jon Seigel
    2013-02-25T21:52:45+08:002013-02-25T21:52:45+08:00

    该HASHBYTES函数最多只需要 8000 个字节作为输入。因为您的输入可能比这更大,所以无论选择哪种算法,在被散列的字段范围内的重复项都会导致冲突。仔细考虑您计划散列的数据范围——使用前 4000 个字符是显而易见的选择,但可能不是您数据的最佳选择。

    无论如何,由于哈希函数是什么,即使输入是 8000 字节或更少,确保结果 100% 正确性的唯一方法是在某个点比较基值(阅读:不一定是第一个)。时期。

    业务将决定是否需要 100% 的准确性。这将告诉您(a)需要比较基值,或者(b)您应该考虑 不比较基值 - 应该牺牲多少准确性来换取性能。

    虽然哈希冲突在唯一的输入集中是可能的,但无论选择何种算法,它们都是极其罕见的。在这种情况下使用散列值的整个想法是有效地将连接结果缩小到更易于管理的集合,而不一定要立即获得最终结果集合。同样,为了 100% 的准确度,这不能是该过程的最后一步。这个场景没有使用散列来加密,所以像 MD5 这样的算法可以正常工作。

    我很难证明出于“准确性”目的而升级到 SHA-x 算法是合理的,因为如果企业要对 MD5 的微小碰撞可能性感到恐惧,他们很可能也会感到害怕SHA-x 算法也不完美。他们要么不得不接受轻微的不准确,要么要求查询是 100% 准确的,并接受相关的技术影响。我想如果 CEO 知道你使用 SHA-x 而不是 MD5 晚上睡得更好,那很好;在这种情况下,从技术角度来看,它仍然没有多大意义。

    说到性能,如果表的读取频率很高,并且经常需要连接结果,请考虑实现索引视图以消除每次请求时都计算整个连接的需要。当然,您为此牺牲了存储空间,但为了提高性能,这可能是值得的,尤其是在需要 100% 准确度的情况下。

    为了进一步阅读索引长字符串值,我发表了一篇文章,介绍了如何为单个表执行此操作的示例,并介绍了在尝试此问题的完整场景时要考虑的事项。

    • 20
  2. ConcernedOfTunbridgeWells
    2013-02-24T12:09:12+08:002013-02-24T12:09:12+08:00

    MD5 应该没问题,输出可以存储在二进制 (16) 中。即使物理样本量很大,碰撞的概率(参见生日悖论)仍然非常低。SHA-1 的输出占用 20 个字节,SHA-256 的输出占用 32 个字节。除非您拥有如此多的记录,以至于您的生日碰撞概率变得很大(物理上不可能或至少对于当前的硬件技术不切实际),否则它可能会没问题。

    • 8
  3. World Wide DBA
    2013-02-23T03:55:21+08:002013-02-23T03:55:21+08:00

    我会选择 SHA-1,它是可用算法中更好的一种,并且在所有算法中碰撞预期最少(2 ^ 51,而 MD5 为 2 ^ 20.96)。MD5 也被证明在某些情况下容易受到碰撞。

    资料来源:

    http://en.wikipedia.org/wiki/SHA-1 http://en.wikipedia.org/wiki/Comparison_of_cryptographic_hash_functions#Cryptanalysis http://en.wikipedia.org/wiki/MD5

    • 4
  4. Gabe
    2019-04-09T12:59:44+08:002019-04-09T12:59:44+08:00

    我没有在答案中看到这一点,但根据MSDN:

    从 SQL Server 2016 (13.x) 开始,不推荐使用除 SHA2_256 和 SHA2_512 之外的所有算法。较旧的算法(不推荐)将继续工作,但它们会引发弃用事件。

    我问了一个类似的问题,所以如果你想使用不推荐使用的函数,比如 MD5(如果你在 2016+),这取决于你。您可以进行测试以了解 MD5 和 SHA2 之间的存储和性能差异有多大。

    • 0

相关问题

  • SQL Server - 使用聚集索引时如何存储数据页

  • 我需要为每种类型的查询使用单独的索引,还是一个多列索引可以工作?

  • 什么时候应该使用唯一约束而不是唯一索引?

  • 死锁的主要原因是什么,可以预防吗?

  • 如何确定是否需要或需要索引

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    如何让sqlplus的输出出现在一行中?

    • 3 个回答
  • Marko Smith

    选择具有最大日期或最晚日期的日期

    • 3 个回答
  • Marko Smith

    如何列出 PostgreSQL 中的所有模式?

    • 4 个回答
  • Marko Smith

    授予用户对所有表的访问权限

    • 5 个回答
  • Marko Smith

    列出指定表的所有列

    • 5 个回答
  • Marko Smith

    如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

    • 4 个回答
  • Marko Smith

    你如何mysqldump特定的表?

    • 4 个回答
  • Marko Smith

    使用 psql 列出数据库权限

    • 10 个回答
  • Marko Smith

    如何从 PostgreSQL 中的选择查询中将值插入表中?

    • 4 个回答
  • Marko Smith

    如何使用 psql 列出所有数据库和表?

    • 7 个回答
  • Martin Hope
    Stéphane 如何列出 PostgreSQL 中的所有模式? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh 为什么事务日志不断增长或空间不足? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland 列出指定表的所有列 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney MySQL 能否合理地对数十亿行执行查询? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx 如何监控大型 .sql 文件的导入进度? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison 你如何mysqldump特定的表? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    pedrosanta 使用 psql 列出数据库权限 2011-08-04 11:01:21 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 对 SQL 查询进行计时? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas 如何从 PostgreSQL 中的选择查询中将值插入表中? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 列出所有数据库和表? 2011-02-18 00:45:49 +0800 CST

热门标签

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve