SQL Server - Como as páginas de dados são armazenadas ao usar um índice clusterizado

Question

Daniel Bragg

Asked: 2021-12-21 15:38:05 +0800 CST2021-12-21 15:38:05 +0800 CST 2021-12-21 15:38:05 +0800 CST

As linhas reais e estimadas diferem muito

772

Antes de executar o plano (porque estou depurando um plano que funciona mal), tenho este bloco de atribuições de variáveis:

DECLARE @Days INT = 180
DECLARE @DateRangeFrom DateTime = DATEADD(d, -@Days, getDate())
DECLARE @DateRangeTo DateTime = getDate()
DECLARE @FacilityID INT = 1010
DECLARE @Answer0 INT = 1879
DECLARE @Answer1 INT = 1949
DECLARE @Answer1SetID INT = 1607
DECLARE @Answer2 INT = 1907
DECLARE @Answer2SetID INT = 1593

Meu primeiro problema é com a pesquisa que estou realizando na tabela IRItemAnswer_Info (Node ID 19). Está se espalhando para o Tempdb, que já inicia a consulta com o pé errado. Ele está referenciando o IRItemAnswerInfo_DGItemID_AnswerSourceIDíndice, que é o índice correto, pois estou combinando em DGItemIDe AnswerSourceID, e retornando IncidentID. O índice é criado como

CREATE NONCLUSTERED INDEX IRItemAnswerInfo_DGItemID_AnswerSourceID
ON dbo.IRItemAnswer_Info (DGItemID, AnswerSourceID) 
INCLUDE([IncidentID], [AnswerBoolean])

No entanto, as linhas estimadas para a consulta são 53.459 e as linhas reais são 969.812.

Acabei de forçar novas estatísticas via UPDATE STATISTICS IRItemAnswer_Info IRItemAnswerInfo_DGItemID_AnswerSourceID WITH FULLSCANe não fez diferença.

DBCC SHOW_STATISTICS ('IRItemAnswer_Info', 'DGItemID')para DGItemID=1949tem EQ_ROWScomo 1,063,536e

DBCC SHOW_STATISTICS ('IRItemAnswer_Info', 'AnswerSourceID')para AnswerSourceID=1607tem EQ_ROWScomo970,079

O banco de dados está executando o nível de compatibilidade 140 (SQL Server 2017). Executamos 2019, mas há problemas que precisamos corrigir nos procedimentos armazenados antes de podermos fazer isso.

Qual deve ser a próxima coisa que eu olho?

Escolhi a saída com pior desempenho, que são os valores mais comuns. IRItemAnswer_Infoé uma tabela contendo respostas definidas pelo usuário para associar a um evento, onde DGItemID=1949é uma das perguntas mais comuns (quase todo evento tem uma) e onde AnswerSourceID=1607é a resposta mais comum. Dado que existe uma forte correlação entre eles, como devo reordenar a consulta?

Como é um ponto de um pouco de confusão, existem dois INNER JOINs para a mesma tabela, IRItemAnswer_Info. Uma é a resposta que estou procurando (conforme identificado pela pergunta e seus links de iria.DGItemID=1879saída para ), e a segunda é um fator limitante. Eu só quero registros onde a pergunta tenha como resposta .iria.AnswerSourceIDirai.AltLabeliiai1.DGItemID=1949iiai1.AnswerSourceID=1607

Eu removi explicitamente o plano do cache (usando DBCC FREEPROCCACHE) e o executei novamente, sem alteração no resultado - o Hash Match ainda está derramando.

5 respostas

Voted

Paul White · Answer 1 · 2021-12-22T14:10:54+08:00

Conforme discutido nas perguntas e respostas relacionadas, como o SQL Server sabe que os predicados estão correlacionados? O SQL Server assume que os predicados são completamente independentes por padrão.

Ele só tem informações estatísticas detalhadas (histogramas) na única coluna inicial, mesmo quando são usados índices ou estatísticas de várias colunas. A questão então é como combinar dois histogramas estatísticos de dois predicados separados.

Por exemplo, digamos que você tenha uma consulta com WHERE c1 = x AND c2 = y. A seletividade de c1 = xé calculada como 0,2 a partir da informação do histograma. A seletividade de c2 = yé calculada como 0,1 a partir de um histograma separado.

Qual é a seletividade dos dois predicados juntos? 0,2? 0,1? 0,2 x 0,1? Em algum lugar no meio?

Sem informações adicionais específicas, o SQL Server precisa fazer um palpite. O padrão original era assumir total independência. A estrutura de estimativa de cardinalidade mais recente usa recuo exponencial (a opção 'em algum lugar no meio').

Seu caso é um pouco diferente, pois você tem dois testes de igualdade em colunas em um índice de várias colunas, que vem com estatísticas de várias colunas. Estes não são tão grandiosos como podem parecer. Ainda obtemos apenas um histograma na coluna principal, mas o objeto de estatísticas contém informações de densidade média para várias colunas.

Por exemplo, um índice em (a,b,c) forneceria informações de densidade para (a), (a,b) e (a,b,c). Essas informações de frequência capturam algo sobre correlação, mas é um único número em cada nível. Isso significa que uma estimativa baseada em frequência sempre produzirá a mesma estimativa com o mesmo número de colunas.

O SQL Server produz uma estimativa de seletividade a partir das informações de frequência de várias colunas, mas também calcula a seletividade dos histogramas de colunas individuais (quando disponíveis). A estimativa do histograma assume independência e não usa recuo exponencial.

O servidor escolhe a estimativa baseada em histograma se for uma seletividade mais alta do que a estimativa baseada em frequência. Este parece ser o caso no seu exemplo.

Plan for computation:

  CSelCalcPointPredsFreqBased
      Distinct value calculation:
          CDVCPlanLeaf
              1 Multi-Column Stats, 0 Single-Column Stats, 0 Guesses

      Individual selectivity calculations:
          CSelCalcColumnInInterval
              Column: QCOL: [IIAI].DGItemID

          CSelCalcColumnInInterval
              Column: QCOL: [IIAI].AnswerSourceID

Loaded histogram for column QCOL: [IIAI].DGItemID from stats with id 2
Loaded histogram for column QCOL: [IIAI].AnswerSourceID from stats with id 3

Cardinality using multi-column statistics 5.45574e-07 and 
with independence assumption 0.00231336. 
Picking cardinality 0.00231336

Selectivity: 0.00231336

A partir das informações da pergunta, as seletividades individuais são:

DGItemID = 1063536 de 19299400
AnswerSourceID = 970079 de 19299400

Assumindo independência, pois ANDmultiplicamos essas seletividades e depois multiplicamos pela cardinalidade da tabela completa para produzir a estimativa de linha:

19299400 * (1063536/19299400 * 970079/19299400) = 53458.3427124.

Há uma série de variações de modelos internos que abordam a tarefa de maneiras diferentes. Apenas alguns são documentados publicamente e expostos por meio de dicas ou sinalizadores de rastreamento.

Normalmente, parece que a seguinte dica pode ser útil:

SELECT
    COUNT_BIG(*)
FROM [VaxxTracker].[dbo].[IRItemAnswer_Info] AS iiai1
WHERE
    iiai1.DGItemID = 1949 
    AND iiai1.AnswerSourceID = 1607
OPTION (USE HINT('ASSUME_MIN_SELECTIVITY_FOR_FILTER_ESTIMATES'));

Documentação

'ASSUME_MIN_SELECTIVITY_FOR_FILTER_ESTIMATES'
Faz com que o SQL Server gere um plano usando seletividade mínima ao estimar E predicados para filtros para considerar a correlação completa. Esse nome de dica é equivalente ao sinalizador de rastreamento 4137 quando usado com o modelo de estimativa de cardinalidade do SQL Server 2012 (11.x) e versões anteriores e tem efeito semelhante quando o sinalizador de rastreamento 9471 é usado com o modelo de estimativa de cardinalidade do SQL Server 2014 (12.x ) ou mais alto.

Infelizmente, essa dica não se aplica quando a estimativa de cardinalidade começou com um cálculo baseado em frequência, usando estatísticas de várias colunas.

Você pode obter um resultado melhor no seu caso usando o modelo CE original:

USE HINT ('FORCE_LEGACY_CARDINALITY_ESTIMATION')

Brendan McCaffrey · Answer 2 · 2021-12-22T12:28:18+08:00

Brendan McCaffrey

2021-12-22T12:28:18+08:002021-12-22T12:28:18+08:00

Tente este índice em vez disso

CREATE NONCLUSTERED INDEX IRItemAnswerInfo_DGItemID_AnswerSourceID
ON dbo.IRItemAnswer_Info (DGItemID, AnswerSourceID,[IncidentID])
INCLUDE([AnswerBoolean])

A outra coisa que eu consideraria se isso não ajudar é solucionar problemas do índice como uma única seleção (sem junções) e colocar os resultados diretamente em uma tabela temporária e, em seguida, juntar-se a ela mais tarde.

Por exemplo, tente algo como a consulta abaixo e veja se consegue obter estimativas corretas. Se puder, isso deve confirmar que você encontrou o índice correto. Em seguida, amarre todo o resto de volta.

SELECT *
FROM IRItemAnswer_Inf
WHERE IncidentID = @IncidentId
    AND DGItemID = @Answer1
    AND AnswerSourceID = @Answer1SetID

1

SQLpro · Answer 3 · 2021-12-22T09:17:19+08:00

Você pode tentar, com a seguinte reescrita:

WITH 
Phases (PhaseID) AS
(
SELECT IRPhaseSID
FROM   IncidentPhase_Code
WHERE  IRPhaseSID > 0
  AND  IRPhaseSID <> 1002

UNION ALL

SELECT IRPhaseSID
FROM   IncidentPhase_Code
WHERE  IRPhaseSID = -3
),
CTE (Age, IncidentID) AS
(
SELECT irai.AltLabel, 
       iria.IncidentID
FROM  IRItemAnswer_Info iria WITH(NOLOCK)
      INNER JOIN Incident_Info inci WITH(NOLOCK) ON inci.IncidentSID = iria.IncidentID
      INNER JOIN Phases ON Phases.PhaseID = inci.IRPhaseID
      INNER JOIN IncidentType_XRef intx WITH(NOLOCK) ON intx.IncidentID = inci.IncidentSID
      INNER JOIN dbo.IncidentTypeHierarchy_GetChildNodeIDs(1666) ithc ON ithc.IncidentTypeNodeSID = intx.IncidentTypeNodeID
      INNER JOIN IRDGroupItem_Info idgi WITH(NOLOCK) ON idgi.DGItemSID = iria.DGItemID
      INNER JOIN IRAlternative_Info irai WITH(NOLOCK) ON irai.AltSID = iria.AnswerSourceID
      INNER JOIN IRItemAnswer_Info iiai1 WITH(NOLOCK) ON iiai1.IncidentID = inci.IncidentSID
                                                         AND iiai1.DGItemID = @Answer1
                                                         AND iiai1.AnswerSourceID = @Answer1SetID
WHERE iria.DGItemID = 1879
      AND iria.AnswerBoolean = 1
      AND (inci.IncidentDate >= @DateRangeFrom)
      AND (inci.IncidentDate < DATEADD(d, 1, @DateRangeTo))
      AND (inci.FacilityID = @FacilityID)
               
)
SELECT Age AS Label, 
      COUNT(IncidentID) AS Cnt
FROM CTE
GROUP BY Age
ORDER BY Cnt DESC OPTION(RECOMPILE);

SQLpro · Answer 4 · 2021-12-22T11:13:49+08:00

SQLpro

2021-12-22T11:13:49+08:002021-12-22T11:13:49+08:00

Você também pode tentar com:

SELECT IRPhaseSID
FROM   IncidentPhase_Code
WHERE  IRPhaseSID > 0

UNION ALL

SELECT IRPhaseSID
FROM   IncidentPhase_Code
WHERE  IRPhaseSID = -3

EXCEPT 

SELECT IRPhaseSID
FROM   IncidentPhase_Code
WHERE  IRPhaseSID = 1002

-2

SQLpro · Answer 5 · 2021-12-22T11:28:07+08:00

SQLpro

2021-12-22T11:28:07+08:002021-12-22T11:28:07+08:00

Pelo menos, verifique se você tem esses índices:

IRItemAnswer_Info (DGItemID, AnswerBoolean, IncidentID, AnswerSourceID)
Incident_Info (FacilityID, IncidentDate, IncidentSID, IRPhaseID)
Fases (PhaseID)
IncidentType_XRef (IncidentID, IncidentTypeNodeID)
IRDGroupItem_Info (DGItemSID)
IRAlternative_Info (AltSID) INCLUDE (AltLabel)
IRItemAnswer_Info (DGItemID, AnswerSourceID, IncidentID)

Se não criar e testar...

-2

As linhas reais e estimadas diferem muito

conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

Como fazer a saída do sqlplus aparecer em uma linha?

Selecione qual tem data máxima ou data mais recente

Como faço para listar todos os esquemas no PostgreSQL?

Listar todas as colunas de uma tabela especificada

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

As linhas reais e estimadas diferem muito

5 respostas

relate perguntas