AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / dba / 问题 / 172275
Accepted
Serdia
Serdia
Asked: 2017-04-29 08:19:36 +0800 CST2017-04-29 08:19:36 +0800 CST 2017-04-29 08:19:36 +0800 CST

是否可以自己搭建数据仓库?

  • 772

我在保险公司工作一年多一点,我的 SQL 经验大约 2-3 年,包括 SSIS、SSRS。我们有大约 1 TB 的数据。

是否可以自己搭建数据仓库?我应该根据我的经验这样做吗?

我可以从很多材料和 SQL 组中获得帮助。但是,还是太复杂了?

谢谢

sql-server ssis
  • 3 3 个回答
  • 675 Views

3 个回答

  • Voted
  1. Best Answer
    Brent Ozar
    2017-04-29T08:25:13+08:002017-04-29T08:25:13+08:00

    这很像问,“我可以自己盖房子吗?”

    这在很大程度上取决于您对“房子”的定义。与您的内部用户交谈以首先构建一组需求——无论由谁构建,这都需要发生。

    当您完成构建需求后,您就可以开始勾勒出您需要构建什么来满足这些需求。

    然后,您可以开始为需要构建的内容构建时间估算。

    当您完成这个过程时,您将更好地了解房子的外观以及您是否可以使用现有的工具箱和技能自己建造它。

    • 9
  2. Solomon Rutzky
    2017-04-29T09:05:33+08:002017-04-29T09:05:33+08:00

    与@Brent 的声明相同,“这在很大程度上取决于您对‘房子’的定义”,您需要找出“数据仓库”对那些提出要求的人意味着什么。有时不应该使用术语“数据仓库”。他们是否想要一个将数据聚合回时间开始并每晚加载并且缺少当天交易数据的系统?他们是否想要实时报告,包括延迟不超过 1 - 5 分钟的当前交易数据?

    根据(不太愉快的)经验,我可以告诉你:

    1. 真正的数据仓库是一种看待世界以及数据存储和查询方式的不同方式。不要错误地认为您只会使用更大的表。多年在事务方面的工作经验,即使是使用 SSIS 和 SSRS,也不能使人神奇地创建一个真正的数据仓库。(相反,擅长数据仓库并不能神奇地转化为在交易方面的任何优势!)
    2. 您应该开始阅读有关数据仓库的概念,以了解您正在查看的内容,因为这将有助于帮助您正确回答“数据仓库是什么意思”。如果您不知道该术语的含义,那么询问那些向您提出此要求的人将不会很有成效。
    3. 与多年来一直从事数据仓库工作的人交谈,以获得比我在这里给出的关于从哪里开始你的教育过程更好的指导。尤其要尝试了解是什么使数据仓库成为数据仓库。
    4. 对那些向你提出这个要求的人要清楚,在适当的数据仓库的设计中存在权衡取舍,因此以后改变需求(例如采用历史报告系统,然后每年引入近实时数据稍后)将导致要么花费很长时间来修改系统以适应新需求,要么可能通过强制系统执行相互冲突的功能来破坏系统的稳定性,这样代码库随着时间的推移变得越来越难维护,直到整个由于即使是简单的请求每次都需要数周时间才能完成和/或破坏现有功能,因此项目成为一种负担。
    • 7
  3. Ben Schmeltzer
    2017-10-10T01:31:30+08:002017-10-10T01:31:30+08:00

    另一种途径是使用数据仓库作为服务产品。许多供应商现在都提供这种服务,包括 Oracle、Snowflake、Microsoft 和 Amazon。这些产品通常具有可指导您构建数据仓库的功能。Redshift 是这个领域的大玩家,现在有Amazon Athena,一个无服务器选项,似乎是为了满足较小的数据需求。这可能是另一种方式。

    第一个问题是,有什么区别?为什么企业会选择一个而不是另一个?好吧,首先;它们都具有以下特点:

    • 基于云

    • 某种级别的行政/管理界面

    • 根据需要扩大和缩小规模的能力

    • 没有本地硬件

    • 购买软件有限或无需购买(IMO,这在很大程度上取决于您想要或需要的用于分析数据的工具。)

    每个企业的其他考虑因素都是独一无二的:

    • 数据集大小和估计增长。

    • 数据复杂性。

    • 管理员资源和能力。

    • 可用的技术资源/IT 人员。

    • 用户人口和人口统计。是的,这些都是基于云的解决方案,但将数据传输到那里需要适当大小和稳定的互联网连接。

    • 数据集成的长期目标。您的数据仓库的用途是什么?谁是你的主要用户?您预期的未来数据需求是什么?例如,如果收购的可能性很大,则应考虑合并不同的数据集。

    然后查看您选择的供应商/产品,看看它们如何匹配。确保你已经确定了你的交易破坏者。是否有任何权衡取舍使一种解决方案优于另一种解决方案?这应该会让您进入决赛名单,以便仔细审查。进行尽职调查,您可以获得在技术、财务和业务角度上都可行的解决方案。

    今天有很多选择,您的研究也是如此。 http://searchdatamanagement.techtarget.com/definition/data-warehouse-as-a-service-DWaaS

    • 2

相关问题

  • SQL Server - 使用聚集索引时如何存储数据页

  • 我需要为每种类型的查询使用单独的索引,还是一个多列索引可以工作?

  • 什么时候应该使用唯一约束而不是唯一索引?

  • 死锁的主要原因是什么,可以预防吗?

  • 如何确定是否需要或需要索引

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目

    • 12 个回答
  • Marko Smith

    如何让sqlplus的输出出现在一行中?

    • 3 个回答
  • Marko Smith

    选择具有最大日期或最晚日期的日期

    • 3 个回答
  • Marko Smith

    如何列出 PostgreSQL 中的所有模式?

    • 4 个回答
  • Marko Smith

    列出指定表的所有列

    • 5 个回答
  • Marko Smith

    如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

    • 4 个回答
  • Marko Smith

    你如何mysqldump特定的表?

    • 4 个回答
  • Marko Smith

    使用 psql 列出数据库权限

    • 10 个回答
  • Marko Smith

    如何从 PostgreSQL 中的选择查询中将值插入表中?

    • 4 个回答
  • Marko Smith

    如何使用 psql 列出所有数据库和表?

    • 7 个回答
  • Martin Hope
    Jin 连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane 如何列出 PostgreSQL 中的所有模式? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh 为什么事务日志不断增长或空间不足? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland 列出指定表的所有列 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney MySQL 能否合理地对数十亿行执行查询? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx 如何监控大型 .sql 文件的导入进度? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison 你如何mysqldump特定的表? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 对 SQL 查询进行计时? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas 如何从 PostgreSQL 中的选择查询中将值插入表中? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 列出所有数据库和表? 2011-02-18 00:45:49 +0800 CST

热门标签

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve