Quais são as principais causas de deadlocks e podem ser evitadas?

Question

Pedro Ludovico Bozzini

Asked: 2020-02-05 11:17:29 +0800 CST2020-02-05 11:17:29 +0800 CST 2020-02-05 11:17:29 +0800 CST

SQL Server - Selecione o registro mais recente de cada grupo quando o desempenho for crítico

772

Eu executo um banco de dados SQL Server 2016 onde tenho a seguinte tabela com mais de 100 milhões de linhas:

StationId | ParameterId |       DateTime       | Value
    1     |      2      | 2020-02-04 15:00:000 |  5.20
    1     |      2      | 2020-02-04 14:00:000 |  5.20
    1     |      2      | 2020-02-04 13:00:000 |  5.20
    1     |      3      | 2020-02-04 15:00:000 |  2.81
    1     |      3      | 2020-02-04 14:00:000 |  2.81
    1     |      4      | 2020-02-04 15:00:000 |  5.23
    2     |      2      | 2020-02-04 15:00:000 |  3.70
    2     |      4      | 2020-02-04 15:00:000 |  12.20
    3     |      2      | 2020-02-04 15:00:000 |  1.10

Esta tabela possui um índice clusterizado para StationId, ParameterId e DateTime, nesta ordem, todos crescentes.

O que eu preciso é, para cada par exclusivo StationId - ParameterId, retornar o valor mais recente da coluna DateTime:

StationId | ParameterId |       LastDate       
    1     |      2      | 2020-02-04 15:00:000 
    1     |      3      | 2020-02-04 15:00:000 
    1     |      4      | 2020-02-04 15:00:000 
    2     |      2      | 2020-02-04 15:00:000 
    2     |      4      | 2020-02-04 15:00:000 
    3     |      2      | 2020-02-04 15:00:000

O que estou fazendo agora é a seguinte consulta, que leva cerca de 90 a 120 segundos para ser executada:

    SELECT StationId, ParameterId, MAX(DateTime) AS LastDate
    FROM  MyTable WITH (NOLOCK)
    GROUP BY StationId, ParameterId

Também vi muitos posts sugerindo o seguinte, que leva mais de 10 minutos para ser executado:

    SELECT StationId, ParameterId, DateTime AS LastDate
    FROM
    (
       SELECT StationId, ParameterId, DateTime
       ,ROW_NUMBER() OVER (PARTITION BY StationId,ParameterIdORDER BY DateTime DESC) as row_num
       FROM  MyTable WITH (NOLOCK)
    )
    WHERE row_num = 1

Mesmo no melhor caso (usando a cláusula GROUP BY e a função agregada MAX), o plano de execução não indica uma busca de índice:

Gostaria de saber se existe uma maneira melhor de realizar essa consulta (ou construir o índice) para obter um melhor tempo de execução.

3 respostas

Voted

David Browne - Microsoft · Answer 1 · 2020-02-05T11:43:15+08:00

Best Answer

David Browne - Microsoft

2020-02-05T11:43:15+08:002020-02-05T11:43:15+08:00

Se você tiver um número pequeno o suficiente de pares (StationID, ParameterID), tente uma consulta como esta:

select StationID, ParameterID, m.DateTime LastDate 
from StationParameter sp
cross apply 
  (
     select top 1 DateTime 
     from MyTable 
     where StationID = sp.StationID
      and ParameterID = sp.ParameterID
     order by DateTime desc
  ) m

Para habilitar o SQL Server para realizar uma pesquisa, buscando o mais recente DateTimepara cada par (StationID,ParameterID).

Com apenas um índice clusterizado em (StationID, ParameterID, DateTime), não há como o SQL Server descobrir os pares distintos (StationID, ParameterID) sem verificar o nível folha do índice e pode encontrar o maior DateTime durante a verificação.

Também com mais de 100 milhões de linhas, esta tabela pode ser melhor como um Clustered Columnstore em vez de um BTree Clustered Index.

27

Taczi · Answer 2 · 2020-02-06T11:41:11+08:00

Taczi

2020-02-06T11:41:11+08:002020-02-06T11:41:11+08:00

Se o desempenho é realmente crítico e você costuma perguntar à sua tabela a data mais recente... Por que não criar uma tabela de pesquisa de estação e parâmetro como chave com o carimbo de hora mais recente. Você precisa atualizar esta tabela toda vez que modificar a grande, mas desta forma você terá seus resultados quando precisar em milissegundos.

0

Connor · Answer 3 · 2020-02-06T19:01:30+08:00

Connor

2020-02-06T19:01:30+08:002020-02-06T19:01:30+08:00

Com a abordagem CTE row_number, tente criar um índice não clusterizado em StationId, ParameterId, DateTime desc. Descobri que ter um índice com a ordem de classificação adequada que minha partição por cláusula de ordem usa melhorou o desempenho para mim.

0

SQL Server - Selecione o registro mais recente de cada grupo quando o desempenho for crítico

conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

Como fazer a saída do sqlplus aparecer em uma linha?

Selecione qual tem data máxima ou data mais recente

Como faço para listar todos os esquemas no PostgreSQL?

Listar todas as colunas de uma tabela especificada

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

SQL Server - Selecione o registro mais recente de cada grupo quando o desempenho for crítico

3 respostas

relate perguntas