AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / dba / 问题 / 3203
Accepted
Tony
Tony
Asked: 2011-06-08 01:28:39 +0800 CST2011-06-08 01:28:39 +0800 CST 2011-06-08 01:28:39 +0800 CST

在 SSIS 中复制数据流的某些行

  • 772

我有一个数据流,可以将数据从旧数据库迁移到新数据库。旧设计将所有数据和历史信息(更改)存储在单个表中,并针对行使用“版本”(递增整数)。

新设计有两个表,一个用于数据的“当前”状态,另一个用于记录使用触发器的更改的审计(或历史)表。因此,“当前”数据仅存在一行,并且历史记录行很多。

在我的 SSIS 包中,我使用以下组件将当前数据复制到一个表,然后将所有数据发送到审计表。

SSIS 数据流

Multicast 用于拆分数据流,Conditional Split 标识“当前”行并将其发送到 Order 表(在任何人评论使用保留字作为表名之前,该表实际上并不称为Order )。

我创建了这个流,因为我看不到使用条件拆分将所有数据发送到审计目标并且仅将当前行发送到另一个的方法。

我假设创建所有重复数据然后将其丢弃到垃圾目的地不是很有效,因为我有大约 52m 行要迁移,我担心转换需要几天时间。

有没有更好(更有效)的方法来实现数据拆分?

关于数据的注意事项:我已将 a 应用于row_number()允许我将“当前”行标识为数字 1 的数据,包括“当前”在内的所有行都需要转到审计表目标。

编辑: 我找到了 SSIS Junkie 的这篇博客文章建议的多播和条件拆分的替代方法:同步脚本转换的多个输出

它使用脚本组件将数据发送到一个或多个输出。我正在尝试这种方法,看看它是否更快,但是在看到 Kenneth 关于删除垃圾目的地的回答和建议之后,我不确定它是否会更快。

sql-server-2008 etl
  • 1 1 个回答
  • 6857 Views

1 个回答

  • Voted
  1. Best Answer
    Kenneth
    2011-06-08T11:01:06+08:002011-06-08T11:01:06+08:00

    我认为该数据流没有明显的问题。我总是建议在你的源查询中做尽可能多的工作,所以如果你可以在一开始就创建一个数据集,允许你通过简单的拆分来填充两个表,它肯定会使用更少的内存。但是根据数据源和数据格式,这样的事情并不总是可能的。

    此外,垃圾目的地有利于开发/调试,但对生产没有好处。去掉它。让“不需要的数据”在拆分时过期。SSIS 可以解决剩下的问题。

    只要您避免阻塞组件(UNION、MERGE 等),这个过程就没有任何理由需要几天时间。我经常在 SSIS 中处理数百万行而没有问题。SSIS 的速度与设计流程的人一样慢。

    它目前是否存在性能问题?

    • 3

相关问题

  • 如何使用 ETL?

  • 死锁的主要原因是什么,可以预防吗?

  • 我在索引上放了多少“填充”?

  • 是否有开发人员遵循数据库更改的“最佳实践”类型流程?

  • 从 SQL Server 2008 降级到 2005

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    你如何mysqldump特定的表?

    • 4 个回答
  • Marko Smith

    您如何显示在 Oracle 数据库上执行的 SQL?

    • 2 个回答
  • Marko Smith

    如何选择每组的第一行?

    • 6 个回答
  • Marko Smith

    使用 psql 列出数据库权限

    • 10 个回答
  • Marko Smith

    我可以查看在 SQL Server 数据库上运行的历史查询吗?

    • 6 个回答
  • Marko Smith

    如何在 PostgreSQL 中使用 currval() 来获取最后插入的 id?

    • 10 个回答
  • Marko Smith

    如何在 Mac OS X 上运行 psql?

    • 11 个回答
  • Marko Smith

    如何从 PostgreSQL 中的选择查询中将值插入表中?

    • 4 个回答
  • Marko Smith

    如何使用 psql 列出所有数据库和表?

    • 7 个回答
  • Marko Smith

    将数组参数传递给存储过程

    • 12 个回答
  • Martin Hope
    Manuel Leduc PostgreSQL 多列唯一约束和 NULL 值 2011-12-28 01:10:21 +0800 CST
  • Martin Hope
    markdorison 你如何mysqldump特定的表? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Stuart Blackler 什么时候应该将主键声明为非聚集的? 2011-11-11 13:31:59 +0800 CST
  • Martin Hope
    pedrosanta 使用 psql 列出数据库权限 2011-08-04 11:01:21 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 对 SQL 查询进行计时? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas 如何从 PostgreSQL 中的选择查询中将值插入表中? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 列出所有数据库和表? 2011-02-18 00:45:49 +0800 CST
  • Martin Hope
    BrunoLM Guid vs INT - 哪个更好作为主键? 2011-01-05 23:46:34 +0800 CST
  • Martin Hope
    bernd_k 什么时候应该使用唯一约束而不是唯一索引? 2011-01-05 02:32:27 +0800 CST
  • Martin Hope
    Patrick 如何优化大型数据库的 mysqldump? 2011-01-04 13:13:48 +0800 CST

热门标签

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve