我必须使用 MS SQL-Server 2008 R2 设计一个涵盖业务假设的数据库。表格的当前数据将导出到文本文件并用作特定应用程序的输入。我想将这些表实现为 R. Snodgrass 所描述的双时态表,以便跟踪有效时间和事务时间。
但是,表的逻辑模式可能并且很可能会发生变化,即可以添加新列或删除旧列。我将如何在表格设计中反映这一点?
显然,我无法真正删除列,因为所有旧数据都会消失。我是否应该在带有 NULL 条目的行中“标记”不可用的列?同样,我将如何跟踪当前正在使用的列?这对于数据导出至关重要,因为只应导出“活动”列。
最后但同样重要的是,我如何记录添加了新列或删除了旧列?
我不确定这是否能回答您的所有问题,但这听起来与我对我们的数据仓库所做的非常相似。但是,按照我解释您的帖子的方式,您可能希望有一个表包含您的数据,另一个表包含您的表定义元数据。
对于数据表,添加一列以标记 is_current。(int 或 bit 数据类型)还有 2 个日期列 valid_dt_from 和 valid_dt_to。
如果某行发生更改,则更新旧行 is_current = 0 和 valid_dt_to =getdate()。
插入 is_current =1 且 valid_dt_from = getdate () 的新行。
您可以使用单个合并查询执行上述操作。
要获取当前数据,请选择 * from table where is_current = 1。
根据需要添加新列。但不要删除旧列。理论上,如果您必须将表重建到以前的时间点,那么该时间点的所有行都应在该时间点具有空值。
创建一个类似的表来定义您的数据表定义。添加一条记录以显示每个字段何时被添加、删除以及它是否是最新的。
您的选择查询可以动态构建。其中current =1,或者重构为某个时间点。
如果您想遵循 Snodgrass 的方法,我对您表示最深切的同情。如果只是为了比较,您可能想看一下我的方法。如果我至少没有提到 Tom Johnston,那我就是失职了,他有一本关于这个主题的新书。至少比Snodgrass有所进步!
但是,向时态数据添加或删除列的问题完全独立于实现。但我实现的一个目标是当前和过去(甚至未来)的数据都驻留在同一个表或一组表中,并且可用于相同的查询。这会影响我的其余答案。
向时态数据添加新属性时,您必须决定这些属性在其存在之前的时间段内的值。对于有效时间和交易时间,该值可能会有很大不同。
有效时间查询询问“实体在指定日期和时间的状态是什么?” 如何实现新属性将取决于您是否可以使用这些新属性回答该问题。如果您不知道,或者过去的状态无关紧要,则只需保留该值
null
(新列的默认值)。否则你必须更新所有过去版本的新属性(你应该知道“更新”是指“创建新版本”)。这不是我喜欢的任务。事务查询询问“实体在指定日期和时间存储在数据库中时的状态是什么?” 显然,新属性在创建之前没有表示,因此为了绝对符合查询的约定,这些属性甚至不应该出现在结果集中。这将非常难以实施。祝你好运。可能最好的折衷办法就是显示值
null
,意思是“未知”,与任何描述一样准确。删除属性意味着这些属性不再相关。那么问题就变成了,“它们是否相关?” 如果答案是否定的,那么只需删除这些列。是的,你在改变历史,但你在删除不相关的数据,所以过去的意义不会改变。如果答案是肯定的,那么列必须保留。可以设置当前值
null
和/或可以重写任何“当前”视图以忽略这些列,但必须维护历史记录。这说明了时间建模比非时间建模需要更多努力的观点。但是,当然,有时现实世界的对象会发生变化,或者我们会发现新的属性。就在十年前,谁能预见到在为汽车建模时需要“ChargeTime”或“SelfDriving”作为属性?
以上是严格从设计师的角度考虑的问题。监管要求(如果适用)可能会增加自己的限制。
祝你好运。保持联系。