AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / user-245465

Psychotechnopath's questions

Martin Hope
Psychotechnopath
Asked: 2021-12-31 01:22:10 +0800 CST

Apache nifi、flume、storm 等数据摄取工具或 logstash 等工具从哪些数据量中变得相关?

  • 0

我在一家拥有两个遗留数据仓库的公司工作,这些数据仓库一直在演变为不可维护的单体。因此,他们迫切需要重组。

我正在研究将当前的数据架构改革为更符合数据网格原则的架构,就像 Zhamak Dehghani 在这篇有影响力的文章中所提倡的那样(可能是数据专业人士众所周知的材料)。

第一个数据仓库,比如 DWH-A,主要由直接来自核心公司应用程序的操作数据库的数据组成。它每周通过来自运营数据库的 FTP 转储进行更新,每次更新都包含大约 2GB 的数据。在 5 年的时间里,DWH 已经增长到 +-300GB 的可观大小。

第二个数据仓库,比如 DWH-B,由来自各种 API 和其他数据源的各种数据组成。它通过 API 调用不断更新,大小为 +- 100GB。

这两个数据仓库都主要使用 T-SQL 构建并托管在 MS SQL Server 上。目前,所有数据要么从操作数据库(通过 SSIS)插入,要么从 API(通过 SSIS icw ZappySys)插入。

由于我的任务是升级当前的做事方式,并且由于我认为 SSIS 是一种相当多余且繁琐的插入数据的方式,因此我正在寻找其他方式将数据摄取到某些数据存储中符合数据网格的原则(因此没有单体数据仓库)。

为此,我遇到了 Apache nifi、Flume、Storm、Kafka 和 Logstash 等工具。所有这些工具就其本身而言似乎非常强大,并且适合处理大量数据。然而,考虑到我正在处理的数据量,我想知道这些工具是否真的与我的公司相关。我不想通过发射火箭筒来杀死蚊子,并使事情变得不必要地复杂化。我还可以简单地构建一些在我们的 K8S 集群中运行的 Python 脚本,并定期检索/写入数据到我们的数据存储中。

将背景总结为一个问题:

Apache nifi、flume、storm 等数据摄取工具或 logstash 等工具从哪些数据量中变得相关?

任何建议将不胜感激。

ssis data-warehouse
  • 2 个回答
  • 78 Views

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目

    • 12 个回答
  • Marko Smith

    如何让sqlplus的输出出现在一行中?

    • 3 个回答
  • Marko Smith

    选择具有最大日期或最晚日期的日期

    • 3 个回答
  • Marko Smith

    如何列出 PostgreSQL 中的所有模式?

    • 4 个回答
  • Marko Smith

    列出指定表的所有列

    • 5 个回答
  • Marko Smith

    如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

    • 4 个回答
  • Marko Smith

    你如何mysqldump特定的表?

    • 4 个回答
  • Marko Smith

    使用 psql 列出数据库权限

    • 10 个回答
  • Marko Smith

    如何从 PostgreSQL 中的选择查询中将值插入表中?

    • 4 个回答
  • Marko Smith

    如何使用 psql 列出所有数据库和表?

    • 7 个回答
  • Martin Hope
    Jin 连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane 如何列出 PostgreSQL 中的所有模式? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh 为什么事务日志不断增长或空间不足? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland 列出指定表的所有列 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney MySQL 能否合理地对数十亿行执行查询? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx 如何监控大型 .sql 文件的导入进度? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison 你如何mysqldump特定的表? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 对 SQL 查询进行计时? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas 如何从 PostgreSQL 中的选择查询中将值插入表中? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 列出所有数据库和表? 2011-02-18 00:45:49 +0800 CST

热门标签

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve