AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / dba / 问题 / 8606
Accepted
ObiObi
ObiObi
Asked: 2011-12-01 10:18:02 +0800 CST2011-12-01 10:18:02 +0800 CST 2011-12-01 10:18:02 +0800 CST

处理数据集市中随时间变化的属性

  • 772

我浏览了整个网站列表,这是我认为最好的匹配。这实际上与数据库管理无关,更像是数据库设计。请原谅我并将我指向正确的站点。

我正在为基本的 BI 系统设计一个数据库。此刻我碰壁了,就是这样(使用虚拟数据进行解释):

假设我的事实表包含以下信息:

John Doe flew from LAX to ATL on 1 Nov in flight AB-123

维度及其属性为:

  • 传单 - 名称、俱乐部
  • 机场 - 城市,代码
  • 日期 - 年、月、日
  • 航班 - 代码、标准、延误、价格

现在,我可以很容易地生成这样的报告:

Airport --> LAX  DFW  ORD  ATL Total
Gold         50   40   10   25   125
Silver      240  300   95  140   775
Bronze     1000 1500  800 1800  5100
Total      1290 1840  905 1965  6000

使用如下查询:

select fd.club, ad.code, count(f1.id) from flyer fd, airport ad, fact1 f1
where fd.id = f1.fid and ad.id = f1.aid and month(f1.date) = 10
group by f1.club, ad.code;

但我的问题来自传单的“俱乐部”状态是一个移动目标。今天处于黄金状态的传单可能在 10 月份处于白银状态,所以我在这里将他算在错误的组中。因此,我想我需要一个像这样的单独事实表:

 John Doe entered Bronze club on 8/15
 John Doe entered Silver club on 10/20
 ...

“俱乐部”作为原始传单维度的属性退出。相反,出现了一个新的俱乐部维度。

然后为了生成我需要的报告,我加入了这两个事实表。

我在正确的轨道上吗?或者是否有其他更简单的解决方案?我能想到的另一种选择是将俱乐部包含在原始事实表中,在 ETL 过程中处理它。所以事实变成了:

John Doe of Silver Club flew from LAX to ATL on 1 Nov in flight AB-123

请让我知道哪种方法更好,或者是否有第三种方法。

database-design olap
  • 3 3 个回答
  • 1493 Views

3 个回答

  • Voted
  1. Best Answer
    ConcernedOfTunbridgeWells
    2011-12-02T02:04:13+08:002011-12-02T02:04:13+08:00

    做到这一点的方法就是 Kimball 所说的Type-2 或 Type-6 缓慢变化的维度。. 本质上,类型 2 SCD 具有合成维度密钥和由基础实体(在本例中为传单)的自然密钥和“生效日期”组成的唯一密钥。合成键与事实表连接,因此您可以使用简单的等连接来附加它(即您不必在查询中按日期范围进行过滤)。

    所有属性(例如本例中的俱乐部)都是传单的属性。如果其中一个属性发生更改,则会在记录新状态的维度上创建一个新行,从更改日期开始生效。

    type-6 与普通的 type 2 类似,但对当前版本的行具有自连接。每当为给定的自然键创建新行时,该自然键的所有行都会使用当前行的自连接进行更新。您可能需要也可能不需要此功能。

    您可以通过将事实表与记录在其上的行(即当前状态)连接起来来查询 as-at 状态。如果您有 type-6,则可以通过自连接查询当前状态,如果需要,也可以在事实表上具体化。

    这些数据也可以很好地与 ad-hoc 报告工具和多维数据集一起使用,尽管在缓慢变化的维度上实现复杂的多维数据集层次结构有点繁琐(随着时间的推移,您需要为层次结构级别和组合的自然键保留占位符)。

    一个好的起点是谷歌搜索“类型 2 缓慢变化的维度”

    • 2
  2. JNK
    2011-12-01T10:48:05+08:002011-12-01T10:48:05+08:00

    我会保留一张单独的桌子

    FlyerName, FlyerClub, StartDate, EndDate

    通过这种方式,您可以跟踪一段时间内的变化,并且可以随时了解某人所在的俱乐部。

    当前记录的EndDate值为NULL。

    • 1
  3. Joel Brown
    2011-12-01T16:41:14+08:002011-12-01T16:41:14+08:00

    在数据集市中,您需要将时间变量属性非规范化到事实表中。

    您的事务源数据库将在传单表上包含传单的俱乐部级别,或者可能在 JNK 建议的与传单相关的日期历史表中。

    在您的数据集市中,您需要将每个特定传单的当前俱乐部级别应用于汇总传单、航班、日期等的事实记录

    在您的情况下,俱乐部是传单的时变属性,但您感兴趣的事实是传单和航班的组合。因此,您需要在航班交易(事实表)上记录 FlyerClub。只要您不让传单在飞行途中更换俱乐部,这将起作用。

    • 1

相关问题

  • 过滤索引是否有助于改进基于输入时间的查询,还是应该避免这种情况?

  • MySQL VARCHAR 和 TEXT 数据类型有什么区别?

  • 存储计算值或根据要求重新计算它们更好吗?[复制]

  • 存储与计算聚合值

  • 在数据仓库中实现多对多关系有哪些方法?

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    你如何mysqldump特定的表?

    • 4 个回答
  • Marko Smith

    您如何显示在 Oracle 数据库上执行的 SQL?

    • 2 个回答
  • Marko Smith

    如何选择每组的第一行?

    • 6 个回答
  • Marko Smith

    使用 psql 列出数据库权限

    • 10 个回答
  • Marko Smith

    我可以查看在 SQL Server 数据库上运行的历史查询吗?

    • 6 个回答
  • Marko Smith

    如何在 PostgreSQL 中使用 currval() 来获取最后插入的 id?

    • 10 个回答
  • Marko Smith

    如何在 Mac OS X 上运行 psql?

    • 11 个回答
  • Marko Smith

    如何从 PostgreSQL 中的选择查询中将值插入表中?

    • 4 个回答
  • Marko Smith

    如何使用 psql 列出所有数据库和表?

    • 7 个回答
  • Marko Smith

    将数组参数传递给存储过程

    • 12 个回答
  • Martin Hope
    Manuel Leduc PostgreSQL 多列唯一约束和 NULL 值 2011-12-28 01:10:21 +0800 CST
  • Martin Hope
    markdorison 你如何mysqldump特定的表? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Stuart Blackler 什么时候应该将主键声明为非聚集的? 2011-11-11 13:31:59 +0800 CST
  • Martin Hope
    pedrosanta 使用 psql 列出数据库权限 2011-08-04 11:01:21 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 对 SQL 查询进行计时? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas 如何从 PostgreSQL 中的选择查询中将值插入表中? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 列出所有数据库和表? 2011-02-18 00:45:49 +0800 CST
  • Martin Hope
    BrunoLM Guid vs INT - 哪个更好作为主键? 2011-01-05 23:46:34 +0800 CST
  • Martin Hope
    bernd_k 什么时候应该使用唯一约束而不是唯一索引? 2011-01-05 02:32:27 +0800 CST
  • Martin Hope
    Patrick 如何优化大型数据库的 mysqldump? 2011-01-04 13:13:48 +0800 CST

热门标签

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve