AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / dba / Perguntas / 292434
Accepted
D-K
D-K
Asked: 2021-05-29 09:51:55 +0800 CST2021-05-29 09:51:55 +0800 CST 2021-05-29 09:51:55 +0800 CST

As fases T e L de um processo de relatório ETL bem ajustado devem levar o mesmo tempo, independentemente da largura do intervalo de tempo e do tamanho dos dados?

  • 772

Para um sistema de relatórios ETL, é normal que o tempo total de execução de um pull de 15 minutos sem dados seja semelhante a um pull de 24 horas com dados?


Eu esperava que o tempo total para ETL quando não há dados fosse menor, mas essa não é a situação entre um pull de 15 minutos e 24 horas. Mas devo confessar que não sei nada sobre as partes internas das fases T e L dentro de um servidor de relatório.

Alguém pode esclarecer se as fases T e L são tipicamente fixas em duração (até certo ponto)?

sql-server performance-tuning
  • 3 3 respostas
  • 152 Views

3 respostas

  • Voted
  1. J.D.
    2021-05-29T13:35:57+08:002021-05-29T13:35:57+08:00

    Não há nada especificamente quantificável sobre os conceitos abstratos de Transform e Load , apenas suas implementações concretas são mensuráveis. Para poder comentar sobre seu caso, precisaríamos saber especificamente o que seus processos de Transformação e Carregamento estão realmente fazendo. Obviamente, algumas Transformações podem levar muito mais tempo do que outras.

    Mas, de um modo geral, a quantidade de dados processados ​​definitivamente deve afetar o tempo de execução geral de um processo ETL . Se houver uma diferença significativa na quantidade de dados entre um período de 24 horas e um período de 15 minutos, mas seu processo de ETL estiver sendo executado aproximadamente no mesmo tempo de execução médio para ambos os casos, algo é definitivamente suspeito, e isso não é normal.

    Mesmo que uma verificação de índice esteja ocorrendo em ambos os casos, se houver uma diferença significativa na quantidade de dados, o tempo de execução total certamente deve refletir isso. O tempo de execução de uma varredura de índice é linear (em termos gerais) com base no número de linhas no índice.

    • 2
  2. Piotr Palka
    2021-05-29T19:47:56+08:002021-05-29T19:47:56+08:00

    Eu também adicionaria algumas coisas sobre o Power BI.
    Muitas vezes, em modelos do Power BI, você usará o modo "importar dados". Nesse caso, quando você atualiza apenas algumas linhas em seus dados de origem, o mecanismo de armazenamento do Power BI criará uma nova cópia completa de todos os dados de origem (ou se o processo for otimizado apenas partições específicas). O Power BI usa o mesmo mecanismo que as colunas não atualizáveis ​​armazenam índices, portanto, toda a partição de índice precisa ser recompilada após cada alteração.
    Você pode ler mais sobre a atualização do Power BI aqui: https://learn.microsoft.com/en-us/power-bi/connect-data/refresh-data .
    Normalmente, você não usará partições menores que um dia, portanto, espera-se que a atualização de 15 minutos ou 24h cause a reconstrução das mesmas partições e essa fase do ETL levará um tempo semelhante.
    Claro que é apenas uma das fases do processo ETL, mas muitas vezes a mais longa.

    • 2
  3. Best Answer
    D-K
    2021-07-20T11:40:20+08:002021-07-20T11:40:20+08:00

    As respostas de JD e Piotr são úteis e contêm dados valiosos, mas infelizmente não são a resposta real para esse problema. Isso não é culpa deles.

    Quando comecei a investigar isso, descobri que isso é simplesmente um problema de extração de pacotes SSIS. Na época, eu não tinha conhecimento suficiente para explorar o painel do relatório de integração do SSIS para entender o que estava vendo.

    A etapa final que eu precisava dar era abrir o projeto no visual studio e ver o designer da caixa de ferramentas do SSIS mostrando as várias etapas. Aprendendo como funciona o processo. Muito interessante e poderoso!

    Finalmente cheguei a uma tabela que estava sendo puxada (extraída) em sua totalidade porque falta uma coluna timestamp. Essa tabela contém 4 milhões de linhas de 3 colunas pequenas e a lógica do SSIS usa uma ação de 'pesquisa' para decidir se o banco de dados do relatório precisa ser atualizado ou inserido.

    Esta ação de pesquisa da caixa de ferramentas do SSIS tinha a opção de cache de memória desabilitada ! Caramba!

    Levava 40 minutos para processar essa tabela todas as vezes, independentemente de quantos minutos a extração original foi definida.

    O Power BI não tem nada a ver com isso. Minhas desculpas pela confusão.

    • 1

relate perguntas

  • SQL Server - Como as páginas de dados são armazenadas ao usar um índice clusterizado

  • Preciso de índices separados para cada tipo de consulta ou um índice de várias colunas funcionará?

  • Quando devo usar uma restrição exclusiva em vez de um índice exclusivo?

  • Quais são as principais causas de deadlocks e podem ser evitadas?

  • Como determinar se um Índice é necessário ou necessário

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

    • 12 respostas
  • Marko Smith

    Como fazer a saída do sqlplus aparecer em uma linha?

    • 3 respostas
  • Marko Smith

    Selecione qual tem data máxima ou data mais recente

    • 3 respostas
  • Marko Smith

    Como faço para listar todos os esquemas no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Listar todas as colunas de uma tabela especificada

    • 5 respostas
  • Marko Smith

    Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

    • 4 respostas
  • Marko Smith

    Como você mysqldump tabela (s) específica (s)?

    • 4 respostas
  • Marko Smith

    Listar os privilégios do banco de dados usando o psql

    • 10 respostas
  • Marko Smith

    Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Como faço para listar todos os bancos de dados e tabelas usando o psql?

    • 7 respostas
  • Martin Hope
    Jin conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane Como faço para listar todos os esquemas no PostgreSQL? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh Por que o log de transações continua crescendo ou fica sem espaço? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland Listar todas as colunas de uma tabela especificada 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney O MySQL pode realizar consultas razoavelmente em bilhões de linhas? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx Como posso monitorar o andamento de uma importação de um arquivo .sql grande? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison Como você mysqldump tabela (s) específica (s)? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas Como posso cronometrar consultas SQL usando psql? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas Como faço para listar todos os bancos de dados e tabelas usando o psql? 2011-02-18 00:45:49 +0800 CST

Hot tag

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve