SQL Server - Como as páginas de dados são armazenadas ao usar um índice clusterizado

Question

Geezer

Asked: 2022-09-14 02:21:17 +0800 CST2022-09-14 02:21:17 +0800 CST 2022-09-14 02:21:17 +0800 CST

TSQL Slow Query, não usando o índice conforme o esperado

772

Tenho uma tabela larga, relativamente grande, 14.264.775 linhas, rodando no banco de dados Azure SQL.

A consulta a seguir precisa de algum TLC.

IF EXISTS (
    SELECT  1/0 
    FROM dbo.table1 src
      INNER JOIN dbo.table1 tgt 
        ON tgt.Col1 = src.Col1
    WHERE tgt.ValidFrom <= src.ValidTo
    AND tgt.ValidTo >= src.ValidFrom
    AND tgt.RecordId <> src.RecordId  
)
 BEGIN
    RAISERROR('Overlap detected in dbo.table1', 11, 1); 
 END ;

Eu tenho esse índice.

CREATE NONCLUSTERED INDEX [IX__table1] ON dbo.table1
        ( Col1 ) 
INCLUDE (ValidFrom, ValidTo, RecordId)
GO

Este é o io stats da consulta. As leituras lógicas são através do telhado.

Aqui está o XML do plano . Eu tentei PasteThePlan, mas não analisaria o XML do plano. (talvez não goste do plano de banco de dados sql do Axure xml).

Como você pode ver, há uma varredura de índice em [src] ; lendo 14.264.775 linhas (o mesmo número de todas as linhas da tabela) . E uma busca de índice em [tgt] ; lendo 194.405.307 linhas.

O que preciso mudar para melhorar o desempenho da consulta?

Existem 2,1 milhões de valores Col1 exclusivos entre as 14 milhões de linhas totais.

2 respostas

Voted

Paul White · Answer 1 · 2022-09-14T04:11:48+08:00

Parece que você editou manualmente o XML e o tornou inválido, principalmente adicionando caracteres inválidos como <e >. Depois de corrigir alguns problemas, consegui carregar o plano no SSMS e no Plan Explorer:

Isso mostra que você tem um índice chamado [IX__dbo_table1__DateRange]—não mencionado na pergunta. A julgar pelo predicado de busca, esse índice tem pelo menos Col1e ValidTonas chaves de índice.

Outro problema é o uso de IF EXISTS. Isso introduz um objetivo de linha , que faz com que o otimizador favoreça uma solução de loops aninhados. Veja as perguntas e respostas relacionadas IF EXISTS demorando mais do que a instrução select incorporada .

Dito isso, encontrar qualquer possível intervalo de sobreposição é um problema difícil de resolver completamente com um índice b-tree, consulte Resolvendo um problema de desempenho com BETWEEN join - spool ansioso .

Sem conhecer a definição completa da tabela, índices e distribuição de dados, é difícil sugerir uma solução adequada. Se você quer apenas algo rápido e fácil de tentar sem alterar muito os índices ou a consulta de origem, tente uma dica de junção de hash:

IF EXISTS (
    SELECT  1/0 
    FROM dbo.table1 src
      INNER HASH JOIN dbo.table1 tgt -- hint added
        ON tgt.Col1 = src.Col1
    WHERE tgt.ValidFrom <= src.ValidTo
    AND tgt.ValidTo >= src.ValidFrom
    AND tgt.RecordId <> src.RecordId  
)
 BEGIN
    RAISERROR('Overlap detected in dbo.table1', 11, 1); 
 END ;

Isso fará a varredura completa do índice duas vezes, mas isso pode não ser tão ruim se o seu sistema puder lidar com os requisitos de memória ou de E/S e se o paralelismo ou a execução em modo de lote estiver disponível. Isso funcionará melhor se houver um número razoável de Col1valores diferentes.

Supondo que as sobreposições não sejam permitidas, minha preferência seria evitar que a situação ocorresse em primeiro lugar usando restrições. Consulte Qual é a maneira correta de garantir entradas exclusivas em um design de banco de dados temporal?

Ou, como ypercubeᵀᴹ sugeriu no chat:

IF EXISTS
(
    SELECT 1/0
    FROM
    (
        SELECT 
            T.ValidFrom,
            PrevValidTo =
                LAG(T.ValidTo) OVER ( 
                    PARTITION BY T.Col1
                    ORDER BY T.ValidFrom)
        FROM dbo.table1 AS T
    ) AS T1
    WHERE 
        T1.PrevValidTo >= T1.ValidFrom
)
BEGIN
    RAISERROR('Overlap detected in dbo.table1', 11, 1); 
END;

Com um índice como:

CREATE NONCLUSTERED INDEX [IX__table1] 
ON dbo.table1
    (Col1, ValidFrom) 
INCLUDE 
    (ValidTo, RecordId);

Luuk · Answer 2 · 2022-09-14T04:03:58+08:00

Luuk

2022-09-14T04:03:58+08:002022-09-14T04:03:58+08:00

Atualmente todos os registros serão lidos porque você está consultando os registros onde tgt.Col1 = src.Col1, que é a tabela completa.

Você deve tornar o índice mais seletivo adicionando ValidFrome/ou ValidToao índice.

Ao adicioná-los ao índice, essas colunas podem ser removidas após as partes INCLUDE.

0

TSQL Slow Query, não usando o índice conforme o esperado

conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

Como fazer a saída do sqlplus aparecer em uma linha?

Selecione qual tem data máxima ou data mais recente

Como faço para listar todos os esquemas no PostgreSQL?

Listar todas as colunas de uma tabela especificada

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

TSQL Slow Query, não usando o índice conforme o esperado

2 respostas

relate perguntas