我已经想到了一种方法来构建一个相当大的表(200 万行),现在我正在征求意见。用这种重命名方法来让一张桌子“活”起来,有什么会让我心烦意乱的?
背景:表格 (data.CatExt) 是我们产品目录的叠加版本。它每天都在一个复杂的过程中构建(从许多不同的领域获取数据,并在发生冲突时决定哪个来源胜过——复杂性在于业务逻辑,而不是技术方面)。获得最终输出所需的所有工作和任何表都发生在“构建”模式中,最终表位于“数据”模式中。这些模式具有不同的权限。
表很宽,大约有 100 个字段。由于数据源的性质,我们每天都采用从头开始构建它的方法,而不是使用“更改/添加/删除”的方法(很难确定最终需要更改的内容)表。)所以我们每天都建立一个新版本的表,然后(在它通过一些自动检查之后)让它成为新的实时版本。
新方法:这就是新方法的用武之地。替换实时版本的最佳方法是什么?最简单的选择是截断并用新数据替换,但这似乎是不必要的大量数据写入。我们可以对每个字段进行更新,但是有 100 个字段需要进行很多讨厌的编码/比较才能找到任何差异。所以我想,为什么不重命名表呢?它会是这样的:
- 实时版本 data.CatExt 存在并且可通过步骤 2 和 3 使用。
- 构建新版本的表 build.CatExt。
- 对 build.CatExt 的检查、索引等全部完成 - 即,它是完美的。
- 删除(好吧,我太鸡了 - 可能重命名)data.CatExt,将 build.CatExt 重命名为 data.CatExt。
瞧,新版本,在实时版本被锁定时,没有不必要的数据移动和相关的长时间。
请指出缺陷。(温柔点,我是新人!:))