谈到这个领域,我还很新手。我在一家小医院做了 8 个月的数据分析师,我在一个新的职业领域获得了 2 年的学位。
情况
我们有一个 Cobol“数据库”(我轻率地使用术语数据库......)。它是专有的分层数据库。我们有一个辅助软件解决方案,在其之上提供 ODBC SQL 层,以便通过标准的接口进行外部访问。它具有我认为符合 SQL 99 的命令。
COBOL 数据库到 SQL 有很多不足之处。索引是一成不变的。因此,如果我想执行任何未在索引的一个或两个字段上键入的查询(索引 = 患者编号。因此,如果我想查询入院/出院日期......忘记它)......它的狗慢. 联接将 5 分钟的查询变成 45 分钟的查询。许多查询会减慢系统的 REST 速度,从而导致不好的事情。
虽然系统确实有一个内部查询系统,但它绝不是我认为完整的东西。它有优点也有缺点,但主要问题是与外界的合作,我也需要发送报告。
问题
我正在尝试构建的...是一个 TSQL 数据仓库。我想创建一个将数据拉入我可以控制的 SQL 环境的过程(添加索引,使用像 case 语句这样的现代东西,“简单”查询不需要 15 分钟)。
我想知道专家们会推荐哪些好的资源、教程和工具。我的理想情况是将所有数据“历史”加载到 T-SQL 数据库中,然后每周加载新数据。它不是“实时”报告的理想选择,但“稍微”旧的数据可以满足我的大部分报告需求。
我一直在搞乱##Temp 表、合并到、更新等,试图查看加载和更新的时间是什么,什么不是……但在我深入之前,我想先了解一下一般情况建议。
我推荐Vincent Rainardi的《使用 SQL Server 中的示例构建数据仓库》 ,因为这涵盖了 SQL Server 的细节。Data Warehouse Toolkit也是一个优秀且实用的指南,但不是特定于平台的。
我希望这样做的方法是使用SSIS,通过现有的 ODBC 连接。它专为将来自不同来源的数据拉入 SQL Server 以供后续使用(例如SSRS )而量身定制。我的建议是对这些工具做一些背景阅读,看看它们是否可以应用于您的情况,如果不能,您至少会更清楚地了解您需要哪些功能,它没有并且可以去购物。
Knight 的 Microsoft Business Intelligence 24-Hour Trainer 是一本书 DVD 组合。这是开始使用 Microsoft BI 的另一个好地方。