基于这篇文章,我能够通过添加索引来解决性能问题,并认为我完成了我的项目,直到我遇到校验和问题......然后我做了研究(应该在我开始项目之前完成)并且发现checksum 和 binary_checksum 在系统关键环境中不可靠。
我正在寻找一种可靠的方法来计算商店中一张表的数据,然后将其与总部的同一张表进行比较。
正如上面提到的帖子中所解释的,数据文件在发生时从多个商店(交易)传输到总部。对于每家商店,所讨论的表格都非常大。在总部,同一张表包含来自所有商店的相同信息,这使得它变得非常庞大。数据通过文件传输,因为 HO 和商店之间没有任何直接连接。理想情况下,如果我可以从商店传输所有数据,逐行并将其与总部的表格进行比较,那将是很棒的,但这是不可想象的,因为它太大了。
我尝试HASHBYTES
通过将列转换为字符串来使用,但发现它在 SQL Server 2014 之前有 8000 个字符的限制。我们的系统必须支持从 2008 年到今天的任何版本的 SQL Server。
我正在尝试找到一种可靠的方法来获取某种类型的聚合校验和值,该校验和值可以逐个在每个商店和他们的 head_office 表之间进行比较。
更新:我试过使用 Hashbyte,但它在我的情况下不起作用,因为由于每家商店和总部之间的数据量,我没有逐行比较。示例:如果一家商店的表有 100 000 行,那么拥有 10 家商店信息的总部将在同一张表中包含 1 000 000 行......我无法将所有行从商店发送到总部只是为了比较并确保所有数据已成功传输。所以我的想法是在每个日期聚合商店的信息,并将其与总部同一家商店的相同聚合进行比较,如果我发现不匹配,我有一个流程被触发以从商店请求信息具体日期到总部。
我很高兴找到校验和的 Checksum_agg,它就是这样做的……但是在阅读和测试不同的场景(例如 checksum(100.00) 给出与 checksum(10.00) 相同的结果)之后,它扼杀了我的整个逻辑。
还有其他想法吗?任何人?
帮助我解决这个难题的解决方案是使用带有 SHA2_256 的哈希字节,然后将其转换为 bigint,然后转换为 float,最后求和。
请注意,从 varbinary 到 bigint 的转换可能很危险,但在我的例子中是可以接受的。不支持直接从 varbinary 到 float 的转换......并且由于溢出,用 bigint 总结许多记录是不够的......因此将 bigint 转换为 float 的原因。