我知道这些字母表示提取、转换和加载。
但是,当我一开始使用它时,我认为在转换阶段我可以对从数据源中提取的数据进行大量不同的连接,后来我意识到在不同的 ETL 上进行连接并不是那么方便.
- 那么我们在Transform阶段做什么呢?
- 计算并输出结果 ?
- 字符串转换?
- 输入数据源应该只是 csv、xml 还是纯文件?
- 如果连接不是那么方便,我们是否应该只在 ETL 中进行高级转换?
谢谢
我知道这些字母表示提取、转换和加载。
但是,当我一开始使用它时,我认为在转换阶段我可以对从数据源中提取的数据进行大量不同的连接,后来我意识到在不同的 ETL 上进行连接并不是那么方便.
谢谢
提取转换和加载是准备要插入数据库或数据仓库的外部数据
查看 ETL 的基础知识,数据仓库设计师 Bill Inmon指出:
正如 Inmon 在他的 ETL 产品简史中所描述的那样,从这里开始,大量的 ETL 产品激增。它们很受欢迎,因为它们是软件工具,旨在从不断变化的系统中提取数据,根据特定规则对其进行转换,并将其加载到数据仓库中。这个软件过程意味着人类只参与了循环的关键元素:解开加载的数据错误。通过最大限度地自动化,ETL 流程为公司提供了一种无缝方式,不仅可以将当前数据库加载到数据仓库中,还可以将相同数据库的未来数据集加载到其中,以便数据仓库可以持续提供未来的结果。
为了具体回答您的问题,不同的数据库提供了不同的摘录。应用转换来规范化数据。规范化既是在特定于数据库的意义上,改变数据的模式以匹配接收数据仓库,也是在人类意义上,确保不同系统中的相同数据对传入系统显示相同。
数据源可以是任何您可以编写转换代码的东西,因为转换的目的是将规则应用于传入数据,以使其适合您的数据模型。只有在必要时才应加入不同的数据集。而是依靠您的收件人数据库来同步结果。
这里有几个用途:
除了上面提到的,我的大部分“转换”都是在进行单位转换时完成的,因为我的大多数数据库都跟踪来自不同来源的科学数据。所以当我“规范化”数据时,这就是我们领域所说的“数据协调”(将事物放在相似的尺度/参考框架上,以便可以直接比较),不一定是“数据库规范化”,尽管我可能需要做一些额外的事情按摩以围绕不同的概念组织数据以适应我们的系统。
我的常见问题是: