我是数据仓库环境中的数据库设计人员。我习惯于处理最多 100 万行的表,现在我面临着超过 50 亿行的表。与“效率工具箱”中的工具有什么显着差异吗?我是否可以相信我以前对索引、分区等的了解,或者这些特定工具中的某些工具对如此大的数据是否有帮助而不是帮助?还有其他处理表格的技巧吗?
(已经找到了一篇关于将7 亿行更新为相同值的好帖子)
我是数据仓库环境中的数据库设计人员。我习惯于处理最多 100 万行的表,现在我面临着超过 50 亿行的表。与“效率工具箱”中的工具有什么显着差异吗?我是否可以相信我以前对索引、分区等的了解,或者这些特定工具中的某些工具对如此大的数据是否有帮助而不是帮助?还有其他处理表格的技巧吗?
(已经找到了一篇关于将7 亿行更新为相同值的好帖子)
索引等的基本原理都以完全相同的方式工作,所以严格来说,唯一的区别是出错的成本!
也就是说,这是一个(不一定完整的)值得牢记的事情清单:
estimate_percent
的值,以便对表的采样较少。如果您还不熟悉阅读和理解执行计划,我会花一些时间学习这些:您一定会在某些时候遇到性能问题,因此知道如何正确诊断问题将变得更加重要,因为添加新的更难当您的行数较大时,索引或进行架构更改。
数量有它自己的质量。
在处理这种大小的表时,最好不要将事实表视为一个表,而应将其视为段级别或离散表的集合。(年龄足够大,可以记住使用分区视图进行滚动我自己的分区会有所帮助。)
Tim Gorman 的Scaling to Infinity论文是宝贵的资源。