我一直在阅读 Hash Join 及其在物理层面上的工作原理。但是,有些事情我不明白(因为我缺乏知识)。
这是我找到的Hash Join的算法;
for each row R1 in the build table
begin
calculate hash value on R1 join key(s)
insert R1 into the appropriate hash bucket
end
for each row R2 in the probe table
begin
calculate hash value on R2 join key(s)
for each row R1 in the corresponding hash bucket
if R1 joins with R2
return (R1, R2)
end
这似乎足以满足诸如"TABLE1.NAME == TABLE2.NAME"
etc 之类的连接条件。但是,当连接条件为"TABLE1.NAME == TABLE2.NAME" && "TABLE1.AGE > TABLE2.AGE"
.
我只是无法找到并理解他们如何生成或比较需要相等运算符和其他一些关系运算符(如大于等)的哈希值。
从您正在阅读的文章(克雷格弗里德曼):
(强调)
散列键是根据(必需的)等值连接谓词构建的。所有其他谓词都在桶扫描期间进行评估,因此名称为“剩余谓词”。
在您的示例中, Name 将用于形成哈希键。在初始哈希探测之后,将对匹配哈希桶中的所有行评估年龄谓词。在散列键不唯一的情况下,自然也会比较存储桶中散列列的实际值。
散列连接的执行计划属性(无论如何在 SQL Server 中)将向您显示构建散列键和任何剩余项。