我需要为每种类型的查询使用单独的索引，还是一个多列索引可以工作？

Question

codingbadger

Asked: 2013-02-16 04:32:37 +0800 CST2013-02-16 04:32:37 +0800 CST 2013-02-16 04:32:37 +0800 CST

如何处理重复的查找信息

772

我有多个数据库，我想将它们存储在一个数据仓库数据库中。我想知道如何设计导入过程来处理多个查找表。

例如，假设我有 5 个数据库都带有查找表 CustomerState。在一个数据库中，它可能看起来像这样：

在此处输入图像描述

在另一个数据库中，它可能看起来像这样：

在此处输入图像描述

我应该如何在 DW 数据库的企业层处理这个问题？我是否将 SourceSystemId 添加到查找表中，可能是这样的：

在此处输入图像描述

然后在我的客户表中使用 pkyCustomerStateId 而不是 CustomerStateId？

1 个回答

Voted

Jon Seigel · Answer 1 · 2013-02-16T06:05:54+08:00

这类事情应该由将数据带入数据仓库的 ETL 过程来处理。这个过程其实就是ETL中的T。

您首先需要做的是定义表的逻辑键列，以便可以在数据库之间等同行的业务含义。您建议的多列键会使事情复杂化，并且实际上并不能解决问题。

对于这个例子，我将定义CustomerState为维度中的逻辑键列，当单独的表合并在一起时，该列在结果中将是唯一的，并CustomerStateId分配了新值。这确保维度主键尽可能窄，这将传递到事实表并使它们也尽可能窄。

ETL 过程可能会做这样的事情（假设CustomerStateId目标表的列是一个IDENTITY列）：

MERGE INTO [dbo].[CustomerState] tgt
    USING [Staging].[CustomerState] src ON src.CustomerState = tgt.CustomerState
    WHEN NOT MATCHED BY TARGET THEN
        INSERT (CustomerState) VALUES (src.CustomerState);

（我使用MERGE而不是的原因INSERT是在其他维度中您可能还需要处理更新；在这种情况下不是因为没有其他列。）

然后，事实表加载过程将使用查找机制（SSIS中的Lookup Transformation）从逻辑值到上述语句生成CustomerState的新分配的值。CustomerStateid

如何处理重复的查找信息

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

授予用户对所有表的访问权限

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

如何处理重复的查找信息

1 个回答

相关问题