AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / dba / Perguntas / 135652
Accepted
SchmitzIT
SchmitzIT
Asked: 2016-04-19 06:23:53 +0800 CST2016-04-19 06:23:53 +0800 CST 2016-04-19 06:23:53 +0800 CST

Tabelas idênticas, consulta idêntica, tempos de execução completamente diferentes

  • 772

Temos duas tabelas com colunas e índices idênticos (sem indexação, basicamente). Executamos a mesma consulta, que no caso da tabela original leva 5 segundos para ser executada; no caso da nova tabela, deixamos rodar por 30 minutos e depois matamos a consulta.

Atualizamos as estatísticas, mas isso não teve resultado. Tentamos reconstruir a nova tabela para ver se a desfragmentação ajudaria, mas também não surtiu efeito.

Em um palpite, exportamos as duas tabelas para o mesmo banco de dados, a fim de ver se algo mudaria ou não, mas temos exatamente os mesmos resultados.

Estou meio perplexo como isso pode ser. Para tornar as coisas ainda mais interessantes, a tabela original contém mais dados do que a nova tabela, o que teoricamente significa que a nova tabela deve concluir a consulta mais rapidamente.

Alguém tem uma possível explicação? Eu trabalhei por anos como DBA (embora não por alguns anos agora) e, francamente, estou perplexo sobre o motivo pelo qual isso poderia acontecer.

Em resposta a alguns dos comentários, aqui está a definição da tabela em questão:

CREATE TABLE [dbo].[Fact_SubscriptionDetail_Test](
[CustomerSellTo_Key] [int] NULL,
[CustomerContactSellTo_Key] [int] NULL,
[CustomerRefTo_Key] [int] NULL,
[WebAuthUser_Key] [int] NULL,
[Country_Key] [int] NULL,
[Date_Key] [int] NULL,
[SnapshotDate_Key] [int] NULL,
[Product_Key] [int] NULL,
[License_Key] [int] NULL,
[Subscription_Key] [int] NULL,
[SubscriptionTypeLostSeatsType_Key] [int] NULL,
[M_SubscriptionDetail_NewSeats] [int] NULL,
[M_SubscriptionDetail_WinbackSeats] [int] NULL,
[M_SubscriptionDetail_RenewedFlexSeats] [int] NULL,
[M_SubscriptionDetail_RenewedCommitSeats] [int] NULL,
[M_SubscriptionDetail_RenewedSeats] [int] NULL,
[M_SubscriptionDetail_ActiveSeatsEndMonth] [int] NULL,
[M_SubscriptionDetail_LostNonPaymentSeats] [int] NULL,
[M_SubscriptionDetail_LostGraceInactiveSeats] [int] NULL,
[M_SubscriptionDetail_LostOtherSeats] [int] NULL,
[M_SubscriptionDetail_LostSeats] [int] NULL,
[M_SubscriptionDetail_GrossBookings] [numeric](38, 20) NULL,
[M_SubscriptionDetail_ActiveFlexSeats] [int] NULL,
[M_SubscriptionDetail_ActiveCommitSeats] [int] NULL,
[M_SubscriptionDetail_ActiveSeats] [int] NULL,
[DateCreated] [datetime] NULL 
    CONSTRAINT [DF__Fact_Subs__DateC__gtfhjCC]  DEFAULT (getdate())
) ON [DATA]

Os dados nas duas tabelas não são totalmente idênticos, mas de natureza muito semelhante. A consulta que executamos está vinculada a algumas outras tabelas (principalmente dimensões do data warehouse).

Eu desfragmentei (o que eu concordo, não faz muito sentido para um heap, mas achei que não faria e não faria mal) simplesmente executando

ALTER TABLE Fact_SubscriptionDetail_Test REBUILD. 

Quando verificamos inicialmente o plano de consulta, ele sugeriu adicionar alguns índices na tabela Teste (mas não na tabela rápida original). Também tentamos adicionar um índice clusterizado (PK) na tabela Teste, mas nem isso, nem o índice sugerido pelo Plano de Execução teve qualquer efeito.

Seguem os planos de execução:

http://pastebin.com/XagvSxjj (Tabela original; rápido)
http://pastebin.com/LSgCsvUe (Nova tabela; lento)

Há uma diferença nos caminhos de execução, o que me faz pensar que a cardinalidade dos dados na tabela original é um pouco melhor. A tabela original contém cerca de 1,4 milhão de linhas (230 MB), das quais 400 mil são processadas pela consulta. A nova tabela contém 400 mil linhas (52 MB).

Esta é a consulta completa: http://pastebin.com/bYiaGW1d (ligeiramente editada para remover algumas informações confidenciais).

O valor para "limite de custo para paralelismo" no servidor é 5.

sql-server performance
  • 1 1 respostas
  • 1403 Views

1 respostas

  • Voted
  1. Best Answer
    Paul White
    2016-04-21T01:59:18+08:002016-04-21T01:59:18+08:00

    ...a tabela original contém mais dados do que a nova tabela, o que teoricamente significa que a nova tabela deve concluir a consulta mais rapidamente.

    Se os planos de execução fossem os mesmos, isso provavelmente seria verdade, mas não é. O número de linhas esperado (e a distribuição dos dados de acordo com as estatísticas) afeta a estratégia escolhida pelo otimizador de consulta.

    Pequena mesa

    Quando a tabela heap contém 398.399 linhas, o otimizador escolhe um plano serial usando loops aninhados para todas as operações de junção, exceto aquelas que afetam diretamente a tabela heap; essas junções empregam uma junção de hash.

    mesa pequena

    A complexidade da consulta é tal que as estimativas de cardinalidade (contagem de linhas) provavelmente serão imprecisas, de modo que a estratégia de loop aninhado acaba sendo um desastre. O otimizador considerou um plano paralelo, mas o rejeitou por ser mais caro do que a opção de loops aninhados seriais.

    Mesa maior

    Quando a tabela heap contém 1.750.640 linhas, as alterações nas estimativas de custo significam que o otimizador avalia que um plano paralelo usando junções de hash e filtros de bitmap otimizados extensivamente será uma estratégia melhor.

    plano maior

    Essa forma de plano é muito mais resistente a erros de estimativa de cardinalidade. As entradas de construção de hash join podem vazar para o disco, mas o pior caso é muito melhor do que executar uma subárvore inteira um grande número de vezes (usando loops aninhados).

    Solução 1

    Se você sabe que um plano paralelo com filtros de bitmap é a melhor escolha em geral, pode usar um Guia de Plano para impor isso ou incentivar esse plano com uma OPTION (HASH JOIN, MERGE JOIN)dica de consulta. Você pode nem sempre obter paralelismo se as tabelas forem pequenas, mas o desempenho ainda deve melhorar (e ser mais previsível em geral).

    Solução 2

    Você também pode explorar a divisão da consulta em seções mais simples, inicialmente ao longo das linhas dos limites da Expressão de Tabela Comum. Materializar resultados intermediários de tamanho razoável em tabelas temporárias significa:

    • Cada parte da consulta pode ser otimizada separadamente
    • O otimizador possui estatísticas e informações de cardinalidade precisas
    • Índices adicionais podem ser adicionados às tabelas temporárias se comprovadamente benéficos
    • Avaliações redundantes de CTE podem ser ignoradas
    • 4

relate perguntas

  • Quais são as principais causas de deadlocks e podem ser evitadas?

  • Como determinar se um Índice é necessário ou necessário

  • Onde posso encontrar o log lento do mysql?

  • Como posso otimizar um mysqldump de um banco de dados grande?

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

    • 12 respostas
  • Marko Smith

    Como fazer a saída do sqlplus aparecer em uma linha?

    • 3 respostas
  • Marko Smith

    Selecione qual tem data máxima ou data mais recente

    • 3 respostas
  • Marko Smith

    Como faço para listar todos os esquemas no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Listar todas as colunas de uma tabela especificada

    • 5 respostas
  • Marko Smith

    Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

    • 4 respostas
  • Marko Smith

    Como você mysqldump tabela (s) específica (s)?

    • 4 respostas
  • Marko Smith

    Listar os privilégios do banco de dados usando o psql

    • 10 respostas
  • Marko Smith

    Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Como faço para listar todos os bancos de dados e tabelas usando o psql?

    • 7 respostas
  • Martin Hope
    Jin conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane Como faço para listar todos os esquemas no PostgreSQL? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh Por que o log de transações continua crescendo ou fica sem espaço? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland Listar todas as colunas de uma tabela especificada 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney O MySQL pode realizar consultas razoavelmente em bilhões de linhas? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx Como posso monitorar o andamento de uma importação de um arquivo .sql grande? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison Como você mysqldump tabela (s) específica (s)? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas Como posso cronometrar consultas SQL usando psql? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas Como faço para listar todos os bancos de dados e tabelas usando o psql? 2011-02-18 00:45:49 +0800 CST

Hot tag

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve