SunnyBoiz Asked: 2022-05-14 04:30:14 +0800 CST2022-05-14 04:30:14 +0800 CST 2022-05-14 04:30:14 +0800 CST 首先是数据湖还是数据仓库? 772 我一直很困惑是创建数据湖还是数据仓库,希望有经验的现实世界的专业人士能给我一些启示。 我希望使用从多个来源(物联网设备、API 等)摄取的数据来存储、可视化和执行机器学习。我读到,在我们所处的当前环境中,企业将需要数据湖和仓库。 我的问题是: 我应该先创建一个数据湖,然后从湖中转换/处理这些原始数据并将其摄取到数据仓库中吗? 还是数据湖本身就是一个单独的数据处理管道? 还是这取决于用例? 这是我一直在想的: PS:如果这是错误的 StackExchange,请告诉我谢谢 :) database-design data-warehouse 1 个回答 Voted Best Answer J.D. 2022-05-14T04:51:52+08:002022-05-14T04:51:52+08:00 这些天有很多相似和重叠的术语(数据湖、数据沼泽、数据仓库等),我不会太纠结,IMO。 数据湖是集中不同数据源的非正式场所。它们可以是灵活的,不一定需要遵循一个固定的模式,但可以遵循一个。 数据仓库的定义更加正式,并将这些不同的数据源统一到一个通用结构中,以便轻松构建消费应用程序和报告。 因此,您的问题的答案是,它仅取决于您的用例、您需要使用多少不同类型的数据和源,以及是否将数据湖作为中间步骤可以更轻松地在应用 ETL 之前完成您的用例(实际上是转换部分)处理该数据。 如果您的所有数据源都已经遵循一个相当通用的模式,那么通常您可以直接 ETL 进入您的数据仓库并完全跳过 Lake。但有时最好使用数据湖来保存提取的原始数据,以防以后需要进行某种程度的协调和调试。它会在您触摸数据之前添加一层数据外观,以将其转换为 Warehouse。
这些天有很多相似和重叠的术语(数据湖、数据沼泽、数据仓库等),我不会太纠结,IMO。
数据湖是集中不同数据源的非正式场所。它们可以是灵活的,不一定需要遵循一个固定的模式,但可以遵循一个。
数据仓库的定义更加正式,并将这些不同的数据源统一到一个通用结构中,以便轻松构建消费应用程序和报告。
因此,您的问题的答案是,它仅取决于您的用例、您需要使用多少不同类型的数据和源,以及是否将数据湖作为中间步骤可以更轻松地在应用 ETL 之前完成您的用例(实际上是转换部分)处理该数据。
如果您的所有数据源都已经遵循一个相当通用的模式,那么通常您可以直接 ETL 进入您的数据仓库并完全跳过 Lake。但有时最好使用数据湖来保存提取的原始数据,以防以后需要进行某种程度的协调和调试。它会在您触摸数据之前添加一层数据外观,以将其转换为 Warehouse。