我在保险公司工作一年多一点,我的 SQL 经验大约 2-3 年,包括 SSIS、SSRS。我们有大约 1 TB 的数据。
是否可以自己搭建数据仓库?我应该根据我的经验这样做吗?
我可以从很多材料和 SQL 组中获得帮助。但是,还是太复杂了?
谢谢
我在保险公司工作一年多一点,我的 SQL 经验大约 2-3 年,包括 SSIS、SSRS。我们有大约 1 TB 的数据。
是否可以自己搭建数据仓库?我应该根据我的经验这样做吗?
我可以从很多材料和 SQL 组中获得帮助。但是,还是太复杂了?
谢谢
这很像问,“我可以自己盖房子吗?”
这在很大程度上取决于您对“房子”的定义。与您的内部用户交谈以首先构建一组需求——无论由谁构建,这都需要发生。
当您完成构建需求后,您就可以开始勾勒出您需要构建什么来满足这些需求。
然后,您可以开始为需要构建的内容构建时间估算。
当您完成这个过程时,您将更好地了解房子的外观以及您是否可以使用现有的工具箱和技能自己建造它。
与@Brent 的声明相同,“这在很大程度上取决于您对‘房子’的定义”,您需要找出“数据仓库”对那些提出要求的人意味着什么。有时不应该使用术语“数据仓库”。他们是否想要一个将数据聚合回时间开始并每晚加载并且缺少当天交易数据的系统?他们是否想要实时报告,包括延迟不超过 1 - 5 分钟的当前交易数据?
根据(不太愉快的)经验,我可以告诉你:
另一种途径是使用数据仓库作为服务产品。许多供应商现在都提供这种服务,包括 Oracle、Snowflake、Microsoft 和 Amazon。这些产品通常具有可指导您构建数据仓库的功能。Redshift 是这个领域的大玩家,现在有Amazon Athena,一个无服务器选项,似乎是为了满足较小的数据需求。这可能是另一种方式。
第一个问题是,有什么区别?为什么企业会选择一个而不是另一个?好吧,首先;它们都具有以下特点:
• 基于云
• 某种级别的行政/管理界面
• 根据需要扩大和缩小规模的能力
• 没有本地硬件
• 购买软件有限或无需购买(IMO,这在很大程度上取决于您想要或需要的用于分析数据的工具。)
每个企业的其他考虑因素都是独一无二的:
• 数据集大小和估计增长。
• 数据复杂性。
• 管理员资源和能力。
• 可用的技术资源/IT 人员。
• 用户人口和人口统计。是的,这些都是基于云的解决方案,但将数据传输到那里需要适当大小和稳定的互联网连接。
• 数据集成的长期目标。您的数据仓库的用途是什么?谁是你的主要用户?您预期的未来数据需求是什么?例如,如果收购的可能性很大,则应考虑合并不同的数据集。
然后查看您选择的供应商/产品,看看它们如何匹配。确保你已经确定了你的交易破坏者。是否有任何权衡取舍使一种解决方案优于另一种解决方案?这应该会让您进入决赛名单,以便仔细审查。进行尽职调查,您可以获得在技术、财务和业务角度上都可行的解决方案。
今天有很多选择,您的研究也是如此。 http://searchdatamanagement.techtarget.com/definition/data-warehouse-as-a-service-DWaaS