我有一个累积快照事实表,用于跟踪终端中容器的进入和退出。
集装箱可以通过3 种不同的方式进出,所以我想创建一个特定的维度表,列出这 3 种可能的方式(火车、船只或卡车)。
然后我读了这篇文章,基本上说这种技术是错误的,但我不明白为什么。
第一篇:
有时,当事实表中有一长串事实稀疏地填充在任何单独的行中时,很容易创建一个度量类型维度,将事实表行折叠为由度量类型维度标识的单个通用事实。我们一般不推荐这种方法。虽然它删除了所有空的事实列,但它会将事实表的大小乘以每行中占用的列的平均数,这使得列内计算变得更加困难。当潜在事实的数量非常多(数百个)时,此技术是可以接受的,但适用于任何给定事实表行的只有少数。
我知道,如果为事务事实表实施“度量类型维度”,它可能会产生其他文章所说的问题,但如果用于累积快照事实,我看不到任何缺点。
第二篇文章:( 实施“度量类型维度”的一些缺点)
- [...] 如果我们使用“度量类型维度”,我们将失去这种分析能力。如果一项措施与其他措施不兼容,我们就无法将它们相加。
- [...] 我们的 SQL 需要运行以生成报告的遍数越多,报告就越慢。
- [...] 在 BI 工具上,如果您不放置度量类型过滤器,您就有可能让用户获得“垃圾信息”。从可用性的角度来看,这种设计是垃圾。
回应 Mark Storey-Smith 的回答
非常好的方法,我从来没有想过。
另一件事:将集装箱运入码头的车辆的每次进出都有一个唯一的 ID,它为我提供了其他信息,例如:车辆的预期到达,实际到达,如果是船只则码头,如果是卡车则收费站和许多其他信息...
这是 3 个不同的事实表,它们必须以某种方式链接到容器事实表。
我以为航次的ID是a degenerate dimension
,所以直接进入集装箱事实表。所以,我的疑问是:我应该在集装箱事实表中添加 6 个不同的字段(vessel_voyage_in_key、vessel_voyage_out_key、train_voyage_in_key、train_voyage_out_key、truck_voyage_in_key、truck_voyage_out_key)还是仅添加 2 个动态链接到各种航程表的其他字段(voyage_in、voyage_out)?
我希望我的疑问是清楚的,谢谢。
我相信指南指的是一个广泛的事实表,其中大多数度量值为空:
建议是有些人会看到所有的空值并决定改为这样做:
不好。
在你的场景中,我想我会看到这样的东西,这与你引用的文章中描述的场景非常不同。
对于其他问题...
我会添加
ExpectedEntryDate
,ExpectedExitDate
到Container/InventoryFact
. 不太确定,如果没有所有数据元素的可见性,我可能会将EntryVoyageId
和ExitVoyageId
与任何其他退化数据项(卡车、火车等的标识符)一起作为一行放在一个单独的垃圾维度中。我将为这一事实添加 3 个新维度
VesselVoyage
,TruckVoyage
以及TrainVoyage
6 个 Voyage 键(入站/出站)(这是 6 个新键,而不是 6 个额外的行)。然后,您可以选择将Dock
和放置Tollbooth
在适当的航程维度中。如果将通用数据保留在这些维度 (VesselFlag
,TruckCapacity
) 中,将特定数据保留在垃圾维度 (VesselName
,VesselMMSI
) 中,它们的大小就不会爆炸。