AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / dba / Perguntas / 17220
Accepted
8kb
8kb
Asked: 2012-04-30 21:15:07 +0800 CST2012-04-30 21:15:07 +0800 CST 2012-04-30 21:15:07 +0800 CST

ETL: estratégia de extração para 200 bancos de dados de origem

  • 772

Qual é a melhor estratégia de extração para aproximadamente 200 bancos de dados de origem do SQL Server 2005 (mesmo esquema) para uma carga diária em uma área de preparação em preparação para limpeza, eliminação de duplicação e transformações do data warehouse?

Até agora, imaginei as seguintes possibilidades:

  1. Replicação transacional: crie 200 assinantes do SQL Server 2008 R2 extraindo dados de seus respectivos editores em 2005. Habilite o Change Data Capture nas tabelas necessárias no assinante e nas tabelas de sombra para realizar carregamentos incrementais em nosso banco de dados temporário.
  2. Rowversion: adicione uma coluna rowversion em cada tabela de origem necessária e use-a em conjunto com um processo SSIS para extrair os dados alterados diretamente para o banco de dados de preparação.
  3. Arquivos BCP: crie uma tarefa automatizada para fazer um despejo noturno de arquivos BCP de todas as tabelas de origem. Use o SSIS para carregar essas tabelas no banco de dados de preparo como parte de um carregamento completo (em vez de incremental).

Pensamentos adicionais:

  1. Estou nervoso com a sobrecarga administrativa e de hardware necessária para oferecer suporte a uma topologia de replicação transacional totalmente nova em 200 bancos de dados.
  2. O tamanho total combinado dos bancos de dados é de cerca de 100 GB. Mas a maior parte disso faz parte dos logs de transações e outras tabelas que não serão usadas em nenhum fato ou dimensão. Em outras palavras, os arquivos BCP não serão enormes, e é por isso que estou considerando uma estratégia de extração completa, embora tudo o que li recomende contra ela.
  3. Estou aberto a sugestões, documentos, etc.
sql-server replication
  • 3 3 respostas
  • 2263 Views

3 respostas

  • Voted
  1. Best Answer
    ConcernedOfTunbridgeWells
    2012-05-01T02:16:59+08:002012-05-01T02:16:59+08:00

    Se você tiver 200 fontes idênticas, poderá parametrizar um pacote SSIS com a fonte de dados e iniciar vários threads. Estes podem ser controlados dentro do pacote por um loop foreach ou de uma fonte externa que inicia os extratores com um parâmetro.

    Você pode considerar uma carga completa para fontes dimensionais relativamente pequenas e uma carga incremental para dados transacionais. Isso exigiria que você tivesse dimensões persistentes, mas isso é bastante simples de fazer com operações MERGE ou uma área de pré-carregamento e um manipulador de dimensões se você precisar de dimensões que mudam lentamente.

    Você pode considerar dar a cada fonte sua própria área de teste (talvez um esquema para cada fonte no banco de dados de teste). Isso elimina problemas de bloqueio nas tabelas de preparação. Crie um conjunto de exibições sobre as tabelas de preparação (essencialmente apenas um conjunto de uniões que correspondem a cada uma das tabelas de origem) que inclua informações da fonte de dados. Eles podem ser gerados com bastante facilidade, portanto, você não precisa recortar e colar manualmente 200 consultas diferentes na união. Depois de preparar os dados, o processo ETL pode ler todo o lote da exibição.

    Isso permite que o ETL seja executado em um hit, embora você tenha que criar uma estratégia para lidar com falhas de extração de sistemas individuais. Para isso, você pode querer olhar para uma arquitetura que lida com dados que chegam atrasados ​​normalmente, para que você possa recuperar feeds individuais que tiveram problemas transitórios.

    PCN

    Para 200 extrações simples, o BCP é provavelmente um bom caminho a percorrer. As fontes são todas idênticas, então os arquivos BCP serão os mesmos nas fontes. Você pode construir um controlador de carga com SSIS. Fazer vários threads lerem o topo de uma lista comum exigiria que você implementasse o acesso sincronizado à lista. O processo SSIS tem vários loops em execução em paralelo em um contêiner de sequência que abre o próximo item, executa-o e atualiza o status correspondente.

    A implementação da função 'próximo' usa um sproc em execução em uma transação serializável que retira a fonte elegível 'próxima' da lista e a marca como 'em andamento' dentro da transação. Este é um problema de 'tabela como fila', mas você não precisa implementar inserções sincronizadas - um lote inteiro pode ser enviado para a tabela no início da execução.

    Estruture o processo de extração individual para que ele tente uma ou duas vezes novamente se a primeira tentativa falhar. Isso atenuará muitas falhas causadas por erros transitórios. Falhe a tarefa se ela falhar duas vezes e estruture o ETL para que seja resiliente a falhas de extração individuais.

    Cargas incrementais

    Provavelmente não vale a pena se preocupar com um carregador incremental para tabelas de dimensão, a menos que você tenha uma dimensão realmente grande que mostre problemas reais de desempenho. Para as fontes de dados da tabela de fatos, provavelmente vale a pena. Se você puder adicionar uma versão de linha à tabela do aplicativo com uma coluna de carimbo de data/hora ou algo semelhante, poderá obter coisas novas. No entanto, você precisará rastrear isso localmente para registrar o último registro de data e hora. Se houver uma data de inserção ou atualização nos dados, você poderá usá-la.

    Cargas completas

    O que poderia dar errado?

    200 processos iniciando para fazer uma carga completa colocam um pico de carga na rede e possivelmente no banco de dados de preparação. Isso pode levar a todos os tipos de problemas transitórios, como tempos limite. Para tabelas de dimensões pequenas, provavelmente não é um problema tão grande. No entanto, para 100 GB, há uma grande variedade de problemas - saturação de WAN, bloqueio (embora a arquitetura de preparação correta atenue isso), disponibilidade de fontes. Quanto mais longo for o processo de extração, maior será a influência dos fatores ambientais na confiabilidade do processo.

    Existem muitos imponderáveis ​​aqui, então YMMV. Sugiro uma carga incremental para as tabelas maiores, se possível.

    • 5
  2. mrdenny
    2012-04-30T22:06:27+08:002012-04-30T22:06:27+08:00

    Você pode usar um pacote SSIS que percorre os bancos de dados de origem, exportando os dados necessários para o banco de dados de destino. Com algum trabalho, você pode criar vários segmentos e vários bancos de dados de uma só vez.

    • 1
  3. Suraj Singh
    2014-07-10T09:28:35+08:002014-07-10T09:28:35+08:00

    O IRI Workbench (GUI do Eclipse) suporta extração em massa (múltiplas tabelas), mapeamento (transformações, se necessário, com regras) e cargas bcp; especificamente, seu assistente de reorganização é mencionado aqui. Eu não começaria com 200 fontes de uma só vez, mas veja como funciona para as 10 primeiras para determinar se sua abordagem multi-script (que eu gosto por portabilidade e fácil modificação) funciona lá. Em seguida, desenvolva essa abordagem e veja como funciona; As ferramentas IRI são para movimentação de dados em massa; a GUI é conveniente para especificar seu uso em situações de várias fontes

    • 0

relate perguntas

  • Práticas recomendadas para executar a replicação atrasada do deslocamento de tempo

  • Quando devo usar uma restrição exclusiva em vez de um índice exclusivo?

  • Quais são as principais causas de deadlocks e podem ser evitadas?

  • Como determinar se um Índice é necessário ou necessário

  • Qual é a diferença entre a replicação do PostgreSQL 9.0 e o Slony-I?

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Como ver a lista de bancos de dados no Oracle?

    • 8 respostas
  • Marko Smith

    Quão grande deve ser o mysql innodb_buffer_pool_size?

    • 4 respostas
  • Marko Smith

    Listar todas as colunas de uma tabela especificada

    • 5 respostas
  • Marko Smith

    restaurar a tabela do arquivo .frm e .ibd?

    • 10 respostas
  • Marko Smith

    Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

    • 4 respostas
  • Marko Smith

    Como você mysqldump tabela (s) específica (s)?

    • 4 respostas
  • Marko Smith

    Como selecionar a primeira linha de cada grupo?

    • 6 respostas
  • Marko Smith

    Listar os privilégios do banco de dados usando o psql

    • 10 respostas
  • Marko Smith

    Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Como faço para listar todos os bancos de dados e tabelas usando o psql?

    • 7 respostas
  • Martin Hope
    Mike Walsh Por que o log de transações continua crescendo ou fica sem espaço? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland Listar todas as colunas de uma tabela especificada 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney O MySQL pode realizar consultas razoavelmente em bilhões de linhas? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx Como posso monitorar o andamento de uma importação de um arquivo .sql grande? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison Como você mysqldump tabela (s) específica (s)? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    pedrosanta Listar os privilégios do banco de dados usando o psql 2011-08-04 11:01:21 +0800 CST
  • Martin Hope
    Jonas Como posso cronometrar consultas SQL usando psql? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas Como faço para listar todos os bancos de dados e tabelas usando o psql? 2011-02-18 00:45:49 +0800 CST
  • Martin Hope
    bernd_k Quando devo usar uma restrição exclusiva em vez de um índice exclusivo? 2011-01-05 02:32:27 +0800 CST

Hot tag

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve