AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / dba / Perguntas / 3203
Accepted
Tony
Tony
Asked: 2011-06-08 01:28:39 +0800 CST2011-06-08 01:28:39 +0800 CST 2011-06-08 01:28:39 +0800 CST

Duplicando algumas linhas de um fluxo de dados no SSIS

  • 772

Eu tenho um fluxo de dados para migrar dados de um banco de dados antigo para um novo. O design antigo tinha todos os dados e informações históricas (alterações) armazenados em uma única tabela com uma "versão" (inteiro incrementado) na linha.

O novo design tem duas tabelas, uma para o estado "atual" dos dados e uma tabela de auditoria (ou histórico) que registra as alterações usando um gatilho. Portanto, existe apenas uma linha para os dados "atuais" e há muitas linhas de histórico.

Em meu pacote SSIS, estou usando os seguintes componentes para copiar os dados atuais para uma tabela, mas enviar todos os dados para a tabela de auditoria.

fluxo de dados SSIS

O Multicast é usado para dividir o fluxo de dados e a Divisão Condicional identifica a linha "atual" e a envia para a tabela Order (a tabela não é realmente chamada Order , antes que alguém comente sobre o uso de uma palavra reservada para um nome de tabela).

Criei este fluxo porque não consegui ver uma maneira de usar o Conditional Split para enviar todos os dados para o destino Audit e apenas a linha atual para o outro.

Presumo que criar todos os dados duplicados e, em seguida, descartá-los em um destino de lixo não seja muito eficiente e, como tenho cerca de 52 milhões de linhas para migrar, estou preocupado que a transformação demore dias.

Existe uma maneira melhor (mais eficiente) de obter a divisão de dados?

Nota sobre os dados: apliquei um row_number()aos dados que me permitem identificar a linha "atual" como número 1, todas as linhas, incluindo "atual", precisam ir para o destino da tabela de auditoria.

EDIT: Encontrei uma alternativa para a divisão multicast e condicional sugerida por esta postagem no blog do SSIS Junkie: várias saídas de uma transformação de script síncrona

Ele usa um componente de script para enviar dados para uma ou mais saídas. Estou tentando esse método para ver se é mais rápido, mas depois de ver a resposta e a sugestão de Kenneth sobre a remoção do destino da lixeira, não tenho certeza se será.

sql-server-2008 etl
  • 1 1 respostas
  • 6857 Views

1 respostas

  • Voted
  1. Best Answer
    Kenneth
    2011-06-08T11:01:06+08:002011-06-08T11:01:06+08:00

    Não vejo nenhum problema gritante com esse fluxo de dados. Sempre sugiro trabalhar o máximo possível em suas consultas de origem, portanto, se você puder criar um conjunto de dados desde o início que permita preencher as duas tabelas por meio de uma divisão simples, certamente usará menos memória. Mas coisas assim nem sempre são possíveis, dependendo da fonte e do formato dos dados.

    Além disso, o destino do lixo é bom para desenvolvimento/depuração, mas não é bom na produção. Remova. Deixe os 'Dados indesejados' expirarem na divisão. O SSIS pode descobrir o resto.

    Desde que você evite componentes de bloqueio (UNION, MERGE, etc.), não há razão para que esse processo demore dias. Eu frequentemente processo muitos milhões de linhas no SSIS sem problemas. O SSIS é tão lento quanto a pessoa que projetou o processo.

    Atualmente está tendo problemas de desempenho?

    • 3

relate perguntas

  • Como posso usar um ETL?

  • Quais são as principais causas de deadlocks e podem ser evitadas?

  • Quanto "Padding" coloco em meus índices?

  • Existe um processo do tipo "práticas recomendadas" para os desenvolvedores seguirem para alterações no banco de dados?

  • Downgrade do SQL Server 2008 para 2005

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Como você mysqldump tabela (s) específica (s)?

    • 4 respostas
  • Marko Smith

    Como você mostra o SQL em execução em um banco de dados Oracle?

    • 2 respostas
  • Marko Smith

    Como selecionar a primeira linha de cada grupo?

    • 6 respostas
  • Marko Smith

    Listar os privilégios do banco de dados usando o psql

    • 10 respostas
  • Marko Smith

    Posso ver Consultas Históricas executadas em um banco de dados SQL Server?

    • 6 respostas
  • Marko Smith

    Como uso currval() no PostgreSQL para obter o último id inserido?

    • 10 respostas
  • Marko Smith

    Como executar o psql no Mac OS X?

    • 11 respostas
  • Marko Smith

    Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Como faço para listar todos os bancos de dados e tabelas usando o psql?

    • 7 respostas
  • Marko Smith

    Passando parâmetros de array para um procedimento armazenado

    • 12 respostas
  • Martin Hope
    Manuel Leduc Restrição exclusiva de várias colunas do PostgreSQL e valores NULL 2011-12-28 01:10:21 +0800 CST
  • Martin Hope
    markdorison Como você mysqldump tabela (s) específica (s)? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Stuart Blackler Quando uma chave primária deve ser declarada sem cluster? 2011-11-11 13:31:59 +0800 CST
  • Martin Hope
    pedrosanta Listar os privilégios do banco de dados usando o psql 2011-08-04 11:01:21 +0800 CST
  • Martin Hope
    Jonas Como posso cronometrar consultas SQL usando psql? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas Como faço para listar todos os bancos de dados e tabelas usando o psql? 2011-02-18 00:45:49 +0800 CST
  • Martin Hope
    BrunoLM Guid vs INT - Qual é melhor como chave primária? 2011-01-05 23:46:34 +0800 CST
  • Martin Hope
    bernd_k Quando devo usar uma restrição exclusiva em vez de um índice exclusivo? 2011-01-05 02:32:27 +0800 CST
  • Martin Hope
    Patrick Como posso otimizar um mysqldump de um banco de dados grande? 2011-01-04 13:13:48 +0800 CST

Hot tag

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve