SQL Server - Como as páginas de dados são armazenadas ao usar um índice clusterizado

Question

reticentKoala

Asked: 2014-09-11 07:24:04 +0800 CST2014-09-11 07:24:04 +0800 CST 2014-09-11 07:24:04 +0800 CST

Usando TOP e obtendo conjuntos de resultados diferentes

772

Estou tentando escrever uma consulta eficiente para excluir blocos de dados. Para esse fim, esperava evitar uma varredura de índice usando a chave primária para obter os registros mais antigos. No entanto, estou vendo alguns resultados inesperados retornados.

eu esperava isso

SELECT TOP 15 OrderID FROM [Order]

Me daria os 15 registros mais antigos porque eu poderia confiar no incremento da chave primária e, portanto, a ordem de armazenamento seria baixa para alta na tabela.

No entanto, isso retorna um conjunto de resultados diferente

SELECT TOP 15 OrderID FROM [Order] ORDER BY DateCreated ASC

O que parece ser uma maneira mais precisa, mas mais cara, de obter o resultado de que preciso.

Confusamente, isso

SELECT TOP 15 * FROM [Order]

Fornece um conjunto diferente de OrderID s (PK) para este

SELECT TOP 15 OrderID FROM [Order]

Entendo que http://msdn.microsoft.com/en-gb/library/ms189463.aspx explica que o pedido não pode ser garantido sem uma cláusula ORDER BY, mas esperava que o PK fizesse o pedido para mim e não pode explicar as diferenças entre os duas últimas cláusulas selecionadas.

1 respostas

Voted

Aaron Bertrand · Answer 1 · 2014-09-11T07:34:02+08:00

Dê uma olhada nos planos. Quando você o usa SELECT *, provavelmente usa o índice clusterizado e, quando deseja apenas uma coluna, talvez haja um índice mais fino para usar.

Não "espere" uma determinada ordem. Se você não disser ao SQL Server como fazer o pedido, ele usará a maneira mais eficiente possível e isso pode mudar devido a provavelmente mais de 20 fatores.

Se você quer uma certa ordem, DIGA. Por favor, leia o nº 3 aqui:

Terça-feira T-SQL nº 56: Suposições do SQL Server

Além disso, esta postagem de Michael Swart pode ser uma leitura interessante:

Sem ORDER BY, você não pode depender da ordem dos resultados

Se você deseja que sua segunda consulta seja mais eficiente, considere a criação de um índice em DateCreated(você pode querer incluir OrderID- não tem certeza da estrutura de índice atual).

Para seu objetivo real de excluir nlinhas por vez, as mais antigas primeiro e assumindo que OrderIDé uma IDENTITYcoluna (portanto, a data de criação do pedido deve se alinhar aproximadamente com isso), por que não usar esta abordagem (com base nesta ótima postagem no blog, também de Michael Swart ):

-- pick a datetime for the newest row you want to delete
-- let's say you want to delete all orders before Jan 1 2014:

SELECT @MaxOrderID = MAX(OrderID)
  FROM dbo.[Order] -- terrible table name, also always use dbo prefix
  WHERE DateCreated < '20140101';

DECLARE @BatchSize INT = 1000,
        @LargestOrderProcessed INT = -1,
        @NextBatchMax INT,
        @RC INT = 1;

WHILE (@RC > 0)
BEGIN
  SELECT TOP (@BatchSize) @NextBatchMax = OrderID
    FROM dbo.[Order]
    WHERE OrderID > @LargestOrderProcessed
    AND OrderID <= @MaxOrderID
    ORDER BY OrderID;

  DELETE dbo.[Order]
    WHERE OrderID > @LargestOrderProcessed
    AND OrderID <= @NextBatchMax;

  SET @RC = @@ROWCOUNT;
  SET @LargestOrderProcessed = @NextBatchMax;
END

Para minimizar o impacto no log, você pode adicionar alguma lógica adicional, da minha postagem no blog Quebrar grandes operações de exclusão em partes . Quanto ao dboprefixo, consulte Maus hábitos para chutar : Evitando o prefixo do esquema .

Usando TOP e obtendo conjuntos de resultados diferentes

conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

Como fazer a saída do sqlplus aparecer em uma linha?

Selecione qual tem data máxima ou data mais recente

Como faço para listar todos os esquemas no PostgreSQL?

Listar todas as colunas de uma tabela especificada

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

Usando TOP e obtendo conjuntos de resultados diferentes

1 respostas

relate perguntas