我们有这样的关系
Store: [ SID , City, EID]
Employee: [ EID , Name, Salary, SID]
Article: [ AID , Name, Producer, Price]
Inventory: [ AID , SID , Count]
Invoice: [ IID , SID , Customer]
项目: [ IID , SID , AID , Count]
Store.EID 是引用 Employee.EID 的外键并指定商店经理。Employee.SID 是引用 Store.SID 的外键,描述了该员工在哪个商店受雇。库存表存储(使用外键)在哪个商店(SID)有多少商品(AID)。发票在商店 (SID) 生成并由多个项目组成,其中每个项目由一个商品 (AID) 和一个计数组成。
Employee 表包含 20,000 名员工,其中恰好有两个元组 t 到一页中。每个员工的(均匀分配的)工资在 20,000 到 100,000 之间。有 10 个商店,每个商店的员工数量相同。Employee 表在 (Salary,EID) 和 (EID,Salary) 上有两个辅助复合键索引。两个索引都是高度为 h 的 B+ 树,每个叶子可以存储 5 个页面引用。
问题是对于查询 select * from Employee where EID = 5 and Salary > 60000,哪个索引需要更少的页面访问?
所以我知道 (EID, Salary) 更适合在这里使用,因为 EID 是唯一的,它会去 EID = 5 然后找到他的薪水,但是,我觉得它有点混乱,因为实际上,我们有一次访问 EID 5 然后将检查条件,我们将获得或不获得该员工。那么我如何计算每个成本以便在它们之间进行比较呢?
由于索引 (EID,Salary) 的高度为 h,因此 EID 上的 PK 必须具有 <=h 的高度。如果这是聚集索引,那么对于 <= h LIOs(页面读取),PK 可以满足查询。
然后假设 PK 不是集群的,使用 PK 花费 h 或 h + 1 LIO。
工资>60000的概率大概是0.5,所以可以算出一个预期成本。在 (EID,Salary) 上使用索引的预期成本为
0.5 * h + 0.5 * (h+1) = h + 0.5 LIO。
使用 (Salary,EID) 索引花费 h LIO 来查找 Salary >60000 的第一行,然后您可以扫描叶页以找到 EID=5,这将需要读取总数的 (0 -.05]叶页。如果 Employee 每页有 2 行,那么 (Salary, EID) 索引可能每页有 8 行。所以你平均扫描 0.25 行或 (20,000/8)/4=625。因此,这将花费平均 625+h LIO。