AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / dba / Perguntas / 86596
Accepted
JohnnyM
JohnnyM
Asked: 2014-12-18 10:30:53 +0800 CST2014-12-18 10:30:53 +0800 CST 2014-12-18 10:30:53 +0800 CST

No SQL Server, posso garantir uma ordem sem uma cláusula ORDER BY explícita quando uma busca de índice é forçada em uma tabela com apenas um índice clusterizado?

  • 772

Atualização 2014-12-18

Com a resposta esmagadora à pergunta principal sendo "Não", as respostas mais interessantes se concentraram na parte 2, como resolver o quebra-cabeça de desempenho com um ORDER BY. Embora eu já tenha marcado uma resposta, não ficaria surpreso se houvesse uma solução com desempenho ainda melhor.

Original

Essa dúvida surgiu porque a única solução extremamente rápida que consegui encontrar para um determinado problema só funciona sem uma ORDER BYcláusula. Abaixo está o T-SQL completo necessário para produzir o problema, junto com minha solução proposta (estou usando o SQL Server 2008 R2, se isso for importante).

--Create Orders table
IF OBJECT_ID('tempdb..#Orders') IS NOT NULL DROP TABLE #Orders
CREATE TABLE #Orders
(  
       OrderID    INT NOT NULL IDENTITY(1,1)
     , CustID     INT NOT NULL
     , StoreID    INT NOT NULL       
     , Amount     FLOAT NOT NULL
)
CREATE CLUSTERED INDEX IX ON #Orders (StoreID, Amount DESC, CustID)

--Add 1 million rows w/ 100K Customers each of whom had 10 orders
;WITH  
    Cte0 AS (SELECT 1 AS C UNION ALL SELECT 1), --2 rows  
    Cte1 AS (SELECT 1 AS C FROM Cte0 AS A, Cte0 AS B),--4 rows  
    Cte2 AS (SELECT 1 AS C FROM Cte1 AS A ,Cte1 AS B),--16 rows 
    Cte3 AS (SELECT 1 AS C FROM Cte2 AS A ,Cte2 AS B),--256 rows 
    Cte4 AS (SELECT 1 AS C FROM Cte3 AS A ,Cte3 AS B),--65536 rows 
    Cte5 AS (SELECT 1 AS C FROM Cte4 AS A ,Cte2 AS B),--1048576 rows 
    FinalCte AS (SELECT  ROW_NUMBER() OVER (ORDER BY C) AS Number FROM   Cte5)
INSERT INTO #Orders (CustID, StoreID, Amount)
SELECT CustID = Number / 10
     , StoreID    = Number % 4
     , Amount     = 1000 * RAND(Number)
FROM  FinalCte
WHERE Number <= 1000000

SET STATISTICS IO ON
SET STATISTICS TIME ON

--For StoreID = 1, find the top 500 customers ordered by their most expensive purchase (Amount)

--Solution A: Without ORDER BY
DECLARE @Top INT = 500
SELECT DISTINCT TOP (@Top) CustID
FROM #Orders WITH(FORCESEEK)
WHERE StoreID = 1
OPTION(OPTIMIZE FOR (@Top = 1), FAST 1);
--9 logical reads, CPU Time = 0 ms, elapsed time = 1 ms
GO
--Solution B: With ORDER BY
DECLARE @Top INT = 500
SELECT TOP (@Top) CustID
FROM #Orders
WHERE StoreID = 1
GROUP BY CustID
ORDER BY MAX(Amount) DESC
OPTION(MAXDOP 1)
--745 logical reads, CPU Time = 141 ms, elapsed time = 145 ms
--Uses Sort operator

GO

Aqui estão os planos de execução para a Solução A e B, respectivamente:

Sol A

Sol B

A solução A fornece o desempenho de que preciso, mas não consegui fazê-la funcionar com o mesmo desempenho ao adicionar qualquer tipo de cláusula ORDER BY (por exemplo, consulte a Solução B). E certamente parece que a Solução A teria que entregar seus resultados em ordem, já que 1) a tabela tem apenas um índice nela, 2) uma busca é forçada, eliminando assim a possibilidade de usar uma varredura de ordem de alocação baseada em páginas IAM .

Então minhas perguntas são:

  1. Estou certo de que garantirá o pedido neste caso sem uma cláusula de pedido?

  2. Caso contrário, existe outro método para forçar um plano que seja tão rápido quanto a Solução A, preferencialmente um que evite classificações? Observe que ele teria que resolver exatamente o mesmo problema (para StoreID = 1, encontre os 500 principais clientes solicitados pelo valor de compra mais caro). Também teria que usar a #Orderstabela, mas diferentes esquemas de indexação seriam OK.

sql-server
  • 2 2 respostas
  • 7909 Views

2 respostas

  • Voted
  1. Best Answer
    Paul White
    2014-12-19T15:59:04+08:002014-12-19T15:59:04+08:00
    1. Estou certo de que garantirá o pedido neste caso sem uma cláusula de pedido?

    Não. Um Flow Distinct que preserva a ordem (permitindo ORDER BYsem uma classificação) não é implementado no SQL Server atualmente. É possível fazer isso em princípio, mas muitas coisas são possíveis se pudermos alterar o código-fonte do SQL Server. Se você pode fazer um bom caso para este trabalho de desenvolvimento, você pode sugerir isso para a Microsoft .

    1. Caso contrário, existe outro método para forçar um plano que seja tão rápido quanto a Solução A, preferencialmente um que evite classificações?

    Sim. (As dicas de tabela e consulta são necessárias apenas ao usar o estimador de cardinalidade anterior a 2014):

    -- Additional index
    CREATE UNIQUE NONCLUSTERED INDEX i 
    ON #Orders (StoreID, CustID, Amount, OrderID);
    
    -- Query
    SELECT TOP (500) 
        O.CustID, 
        O.Amount
    FROM #Orders AS O
        WITH (FORCESEEK(IX (StoreID)))
    WHERE O.StoreID = 1
    AND NOT EXISTS
    (
        SELECT NULL
        FROM #Orders AS O2
            WITH (FORCESEEK(i (StoreID, CustID, Amount)))
        WHERE 
            O2.StoreID = O.StoreID
            AND O2.CustID = O.CustID
            AND O2.Amount >= O.Amount
            AND
            (
                O2.Amount > O.Amount
                OR
                (
                    O2.Amount = O.Amount
                    AND O2.OrderID > O.OrderID
                )
            )
    )
    ORDER BY
        O.Amount DESC
    OPTION (MAXDOP 1);
    

    Plano de Execução Real

    (500 row(s) affected)
    
     SQL Server Execution Times:
       CPU time = 0 ms,  elapsed time = 4 ms.
    

    Solução SQL CLR

    O script a seguir mostra o uso de uma função com valor de tabela SQL CLR para atender aos requisitos declarados. Não sou especialista em C#, então o código pode ser melhorado:

    USE Sandpit;
    GO
    -- Ensure SQLCLR is enabled
    EXECUTE sys.sp_configure
        @configname = 'clr enabled',
        @configvalue = 1;
    RECONFIGURE;
    GO
    -- Lazy, but effective to allow EXTERNAL_ACCESS
    ALTER DATABASE Sandpit
    SET TRUSTWORTHY ON;
    GO
    -- The CLR assembly
    CREATE ASSEMBLY FlowDistinctOrder
    AUTHORIZATION dbo
    FROM 
    WITH PERMISSION_SET = EXTERNAL_ACCESS;
    GO
    -- The CLR TVF with order guarantee
    CREATE FUNCTION dbo.FlowDistinctOrder 
    (
        @ServerName nvarchar(128), 
        @DatabaseName nvarchar(128), 
        @MaxRows bigint
    )
    RETURNS TABLE 
    (
        CustID integer NULL, 
        Amount float NULL
    )
    ORDER (Amount DESC)
    AS EXTERNAL NAME FlowDistinctOrder.UserDefinedFunctions.FlowDistinctOrder;
    

    Tabela de teste e dados de amostra da pergunta:

    -- Test table
    CREATE TABLE dbo.Orders
    (  
        OrderID    integer  NOT NULL IDENTITY(1,1),
        CustID     integer  NOT NULL,
        StoreID    integer  NOT NULL,
        Amount     float    NOT NULL
    );
    GO
    -- Sample data
    WITH  
        Cte0 AS (SELECT 1 AS C UNION ALL SELECT 1), --2 rows  
        Cte1 AS (SELECT 1 AS C FROM Cte0 AS A, Cte0 AS B),--4 rows  
        Cte2 AS (SELECT 1 AS C FROM Cte1 AS A ,Cte1 AS B),--16 rows 
        Cte3 AS (SELECT 1 AS C FROM Cte2 AS A ,Cte2 AS B),--256 rows 
        Cte4 AS (SELECT 1 AS C FROM Cte3 AS A ,Cte3 AS B),--65536 rows 
        Cte5 AS (SELECT 1 AS C FROM Cte4 AS A ,Cte2 AS B),--1048576 rows 
        FinalCte AS (SELECT  ROW_NUMBER() OVER (ORDER BY C) AS Number FROM   Cte5)
    INSERT dbo.Orders 
        (CustID, StoreID, Amount)
    SELECT 
        CustID  = Number / 10,
        StoreID = Number % 4,
        Amount  = 1000 * RAND(Number)
    FROM FinalCte
    WHERE 
        Number <= 1000000;
    GO
    -- Index
    CREATE CLUSTERED INDEX IX 
    ON dbo.Orders 
        (StoreID ASC, Amount DESC, CustID ASC);
    

    Teste de funcionamento:

    -- Test the function
    -- Run several times to ensure connection is cached
    -- and CLR code fully compiled
    DECLARE @Start datetime2 = SYSUTCDATETIME();
    
    SELECT TOP (500) 
        FDO.CustID
    FROM dbo.FlowDistinctOrder
    (
        @@SERVERNAME,   -- For external connection
        DB_NAME(),      -- For external connection
        500             -- Number of rows to return
    ) AS FDO 
    ORDER BY 
        FDO.Amount DESC;
    
    SELECT DATEDIFF(MILLISECOND, @Start, SYSUTCDATETIME());
    

    Plano de execução (observe a validação da ORDERgarantia):

    Plano de execução da função CLR

    No meu laptop, isso normalmente é executado em 80-100ms. Isso não é nem de longe tão rápido quanto a reescrita do T-SQL acima, mas deve mostrar boa estabilidade de desempenho diante de diferentes distribuições de dados.

    Código fonte:

    using Microsoft.SqlServer.Server;
    using System.Collections;
    using System.Collections.Generic;
    using System.Data.SqlClient;
    
    public partial class UserDefinedFunctions
    {
        private sealed class ReverseComparer<T> : IComparer<T>
        {
            private readonly IComparer<T> original;
    
            public ReverseComparer(IComparer<T> original)
            {
                this.original = original;
            }
    
            public int Compare(T left, T right)
            {
                return original.Compare(right, left);
            }
        }
    
        [SqlFunction
            (
            DataAccess = DataAccessKind.Read,
            SystemDataAccess = SystemDataAccessKind.None,
            FillRowMethodName = "FillRow",
            TableDefinition = "CustID integer NULL, Amount float NULL"
            )
        ]
        public static IEnumerable FlowDistinctOrder
            (
            [SqlFacet (MaxSize=128)]string ServerName, 
            [SqlFacet (MaxSize=128)]string DatabaseName,
            long MaxRows
            )
        {
            var list = new SortedDictionary<double, int>
                (new ReverseComparer<double>(Comparer<double>.Default));
    
            var csb = new SqlConnectionStringBuilder();
            csb.ConnectTimeout = 10;
            csb.DataSource = ServerName;
            csb.Enlist = false;
            csb.InitialCatalog = DatabaseName;
            csb.IntegratedSecurity = true;
    
            using (var conn = new SqlConnection(csb.ConnectionString))
            {
                conn.Open();
                using (var cmd = conn.CreateCommand())
                {
                    cmd.CommandText =
                        @"
                        SELECT
                            O.CustID, 
                            O.Amount
                        FROM dbo.Orders AS O
                        WHERE 
                            O.StoreID = 1 
                        ORDER BY 
                            O.Amount DESC";
    
                    int custid;
                    double amount;
    
                    using (var rdr = cmd.ExecuteReader())
                    {
                        while (rdr.Read())
                        {
                            custid = rdr.GetInt32(0);
                            amount = rdr.GetDouble(1);
    
                            if (!list.ContainsKey(amount))
                            {
                                list.Add(amount, custid);
                                if (list.Count == MaxRows)
                                {
                                    break;
                                }
                            }
                        }
                    }
                }
            }
            return list;
        }
    
        public static void FillRow(object obj, out int CustID, out double Amount)
        {
            var v = (KeyValuePair<double, int>)obj;
            CustID = v.Value;
            Amount = v.Key;
        }
    }
    
    • 24
  2. usr
    2014-12-18T14:54:57+08:002014-12-18T14:54:57+08:00

    Sem ORDER BYum monte de coisas podem dar errado. Você excluiu todos os problemas possíveis em que posso pensar, mas isso não significa que não haja problemas nem haverá um em uma versão futura.

    Isso deve funcionar:

    Puxe lotes de 500 linhas da tabela em um loop e pare quando tiver 500 IDs de clientes distintos. A consulta de busca pode ser assim:

    select TOP (500) Amount, CustID
    into #fetchedOrders
    from Orders
    where StoreID = 1234 and Amount <= @lastAmountFetched
    order by Amount DESC
    

    Isso executará uma varredura de intervalo ordenada no índice. O Amount <= @lastAmountFetchedpredicado existe para obter mais registros de forma incremental. Cada consulta tocará fisicamente apenas 500 registros. Isso significa que é O(1). Não se torna mais caro quanto mais você avança no índice.

    Você tem que manter a variável @lastAmountFetchedpara diminuir para o menor valor que você buscou nessa instrução.

    Dessa forma, você verificará incrementalmente o índice de maneira ordenada. Você lerá no máximo (500 - 1) linhas a mais do que a quantidade ideal.

    Isso será muito mais rápido do que sempre agregar cerca de 100.000 pedidos para uma loja específica. Provavelmente, serão necessárias apenas algumas iterações de 500 linhas cada.

    Essencialmente, este é um operador distinto de fluxo codificado manualmente.

    Como alternativa, use um cursor para buscar o menor número possível de linhas. Isso será muito mais lento porque a execução de 500 consultas de linha única é mais lenta do que a execução de um lote de 500 linhas.

    Como alternativa, simplesmente consulte todas as linhas DISTINCTde maneira ordenada e faça com que o aplicativo cliente encerre a consulta assim que linhas suficientes forem retornadas (usando SqlCommand.Cancel).

    • 6

relate perguntas

  • SQL Server - Como as páginas de dados são armazenadas ao usar um índice clusterizado

  • Preciso de índices separados para cada tipo de consulta ou um índice de várias colunas funcionará?

  • Quando devo usar uma restrição exclusiva em vez de um índice exclusivo?

  • Quais são as principais causas de deadlocks e podem ser evitadas?

  • Como determinar se um Índice é necessário ou necessário

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

    • 12 respostas
  • Marko Smith

    Como fazer a saída do sqlplus aparecer em uma linha?

    • 3 respostas
  • Marko Smith

    Selecione qual tem data máxima ou data mais recente

    • 3 respostas
  • Marko Smith

    Como faço para listar todos os esquemas no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Listar todas as colunas de uma tabela especificada

    • 5 respostas
  • Marko Smith

    Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

    • 4 respostas
  • Marko Smith

    Como você mysqldump tabela (s) específica (s)?

    • 4 respostas
  • Marko Smith

    Listar os privilégios do banco de dados usando o psql

    • 10 respostas
  • Marko Smith

    Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Como faço para listar todos os bancos de dados e tabelas usando o psql?

    • 7 respostas
  • Martin Hope
    Jin conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane Como faço para listar todos os esquemas no PostgreSQL? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh Por que o log de transações continua crescendo ou fica sem espaço? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland Listar todas as colunas de uma tabela especificada 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney O MySQL pode realizar consultas razoavelmente em bilhões de linhas? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx Como posso monitorar o andamento de uma importação de um arquivo .sql grande? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison Como você mysqldump tabela (s) específica (s)? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas Como posso cronometrar consultas SQL usando psql? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas Como faço para listar todos os bancos de dados e tabelas usando o psql? 2011-02-18 00:45:49 +0800 CST

Hot tag

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve