我目前正在设计一个基于 MSSQL 2016 的平台来处理一个数据集(基于 OLTP),该数据集将增长到 PetaByte 级别以上。它将用于需要使用各种方法和工具(包括 R)发现趋势的特定类型的分析。将有各种来源在“实时”基础上为数据库提供数据,以及将按批次摄取的数据批次。由于交易量大、预计并发用户数 (>250) 以及用户使用数据的方式(稍后更多),我们需要此解决方案具有高性能和可扩展性。很明显,数据需要在几个级别上进行分区以支持数据消费者。
用户将在每日、每周、每月和多年范围内运行趋势分析类型的工作负载。大多数数据将提供日期字段,但客户名称、帐号和交易类型也在进行趋势分析的范围内。
我向大家提出的问题如下,您设计合适的分区解决方案的策略是什么?你会问什么问题,你会在答案中寻找什么?你将如何处理索引等的维护......你会在设计中考虑什么?
Oowww 并将所有内容都放入数据湖(阅读:沼泽)或转向不同的平台不是一种选择。另外,我无权讨论项目的细节或涉及的数据,所以请不要问。只要知道这是高度机密的财务和个人数据,我们将根据强加给我们的法律要求进行取证分析(使用 R、PowerBI 和/或其他 BI 工具)。对不起,我不会分享除此之外的任何其他细节。