数据泵导出如何在 Windows 上限制其资源使用？

Question

JHFB

Asked: 2013-02-13 07:38:32 +0800 CST2013-02-13 07:38:32 +0800 CST 2013-02-13 07:38:32 +0800 CST

Oracle 中的 500+ 百万行表有显着差异吗？

772

我是数据仓库环境中的数据库设计人员。我习惯于处理最多 100 万行的表，现在我面临着超过 50 亿行的表。与“效率工具箱”中的工具有什么显着差异吗？我是否可以相信我以前对索引、分区等的了解，或者这些特定工具中的某些工具对如此大的数据是否有帮助而不是帮助？还有其他处理表格的技巧吗？

（已经找到了一篇关于将7 亿行更新为相同值的好帖子）

2 个回答

Voted

Chris Saxon · Answer 1 · 2013-02-17T07:56:35+08:00

索引等的基本原理都以完全相同的方式工作，所以严格来说，唯一的区别是出错的成本！

也就是说，这是一个（不一定完整的）值得牢记的事情清单：

B-tree 索引可能在其中有一个额外的级别，因此使用它们的成本略高。但是，在 DW 中，您应该使用位图索引（假设您有企业版）
计算整个表格的统计数据需要更长的时间 - 以至于在正常的隔夜窗口中可能无法实现。这可以通过
- 在收集统计数据时使用较小estimate_percent的值，以便对表的采样较少。
- 使用增量统计信息收集（仅当您在分区表上有全局索引时才相关）
索引的直方图限制为 254 个桶。更多行可能意味着更多不同的值，这意味着“近乎流行”的值可能是偏斜数据的更大问题。
您的整个表适合缓冲区缓存的机会接近于零，这意味着您更有可能进行更多的物理（磁盘）读取。您的正常工作集也可能太大而无法缓存。
分区可以成为你的朋友——如果你做对了！如果您通常要跨多个分区修改和查询数据，那么它可能比普通表花费更多。
物化视图对于减少工作集非常有用。例如，如果您拥有 10 年以上的数据，但绝大多数用户查询只是针对过去 2 年，那么创建仅限于这些数据的 MV 可能会有很大帮助。
数据库越大，企业就越不可能（能够）资助一个完全复制实时环境的测试数据库。这使得在测试中重现性能问题变得更加困难，因为缓慢的查询可能是由于数据的规模和/或物理存储造成的。您不能指望能够将查询结果从更小的测试数据库推断为相应的实时性能。

如果您还不熟悉阅读和理解执行计划，我会花一些时间学习这些：您一定会在某些时候遇到性能问题，因此知道如何正确诊断问题将变得更加重要，因为添加新的更难当您的行数较大时，索引或进行架构更改。

Adam Musch · Answer 2 · 2013-02-16T09:56:14+08:00

Adam Musch

2013-02-16T09:56:14+08:002013-02-16T09:56:14+08:00

数量有它自己的质量。

在处理这种大小的表时，最好不要将事实表视为一个表，而应将其视为段级别或离散表的集合。（年龄足够大，可以记住使用分区视图进行滚动我自己的分区会有所帮助。）

Tim Gorman 的Scaling to Infinity论文是宝贵的资源。

4

Oracle 中的 500+ 百万行表有显着差异吗？

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

授予用户对所有表的访问权限

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

Oracle 中的 500+ 百万行表有显着差异吗？

2 个回答

相关问题