我目前正在设计一个基于 MSSQL 2016 的平台来处理一个数据集(基于 OLTP),该数据集将增长到 PetaByte 级别以上。它将用于需要使用各种方法和工具(包括 R)发现趋势的特定类型的分析。将有各种来源在“实时”基础上为数据库提供数据,以及将按批次摄取的数据批次。由于交易量大、预计并发用户数 (>250) 以及用户使用数据的方式(稍后更多),我们需要此解决方案具有高性能和可扩展性。很明显,数据需要在几个级别上进行分区以支持数据消费者。
用户将在每日、每周、每月和多年范围内运行趋势分析类型的工作负载。大多数数据将提供日期字段,但客户名称、帐号和交易类型也在进行趋势分析的范围内。
我向大家提出的问题如下,您设计合适的分区解决方案的策略是什么?你会问什么问题,你会在答案中寻找什么?你将如何处理索引等的维护......你会在设计中考虑什么?
Oowww 并将所有内容都放入数据湖(阅读:沼泽)或转向不同的平台不是一种选择。另外,我无权讨论项目的细节或涉及的数据,所以请不要问。只要知道这是高度机密的财务和个人数据,我们将根据强加给我们的法律要求进行取证分析(使用 R、PowerBI 和/或其他 BI 工具)。对不起,我不会分享除此之外的任何其他细节。
我建议您阅读文章,其中介绍了 OLTP 数据库的一些重要先决条件和建议。
http://nerdtechies.com/2016/12/05/improve-write-performance-sql-server-database/
对于加载过程使用
BULK INSERT
和普通插入用户WITH(ROWLOCK)
。https://technet.microsoft.com/en-us/library/dd425070.aspx
分区
你需要知道什么。
--我有 2TB 表的经验,每天增长 50GB,一个月的生产数据在 WH 上。所以相应地提出建议。
如果 70-80 % 使用每日分析报告。我建议每天进行分区,因为会有大量数据。它会执行得更快,但要生成每周、每月和每年的报告,您将需要冗长的查询。
如果每日、每周和每月分析之间的比率为 50-50,则进行每月分区。在这种情况下,每日和每周报告将比按天划分的报告执行得更慢,因为每月会有很多记录要过滤。但是您将有非常简单的查询。
通过考虑在线数据的保留进行分区使归档策略更容易。
指数
由于表将被分区,您应该在表上创建分区索引。要创建分区索引,您需要在索引中包含分区基列。除非您不在分区表上创建分区索引,否则您不会获得性能优势。
在单独的文件组上创建索引将导致报告的良好性能。因此,为与为表创建的索引相同的索引在单独的文件组上创建单独的分区方案、函数。
最好在 Index_Partition_Scheme 上使用列存储索引(Base_Partition_Column、客户名称、帐号、交易类型、财务列)。
使用创建索引
FILLFACTOR=80
创建分区索引使索引维护更容易。您可以为索引的特定分区执行维护任务,而不是重建或重组完整的索引,从而最大限度地减少大表的维护时间。
为此,您可以跟踪分区的索引碎片和行数。它将帮助您找出应该重建哪个分区的索引。
维护计划取决于数据大小、执行维护活动的休息时间以及 SQL Server 完成任务所需的时间。最好先使用相同数量的数据在测试环境中测试您的维护计划,然后如果它在您的下班时间内完成则转移到生产环境。
谢谢