AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / dba / Perguntas / 233610
Accepted
peterh
peterh
Asked: 2019-04-01 09:19:37 +0800 CST2019-04-01 09:19:37 +0800 CST 2019-04-01 09:19:37 +0800 CST

Como obter o último valor não nulo em uma coluna ordenada de uma tabela enorme?

  • 772

Tenho a seguinte entrada:

 id | value 
----+-------
  1 |   136
  2 |  NULL
  3 |   650
  4 |  NULL
  5 |  NULL
  6 |  NULL
  7 |   954
  8 |  NULL
  9 |   104
 10 |  NULL

Espero o seguinte resultado:

 id | value 
----+-------
  1 |   136
  2 |   136
  3 |   650
  4 |   650
  5 |   650
  6 |   650
  7 |   954
  8 |   954
  9 |   104
 10 |   104

A solução trivial seria juntar as tabelas com uma <relação e, em seguida, selecionar o MAXvalor em a GROUP BY:

WITH tmp AS (
  SELECT t2.id, MAX(t1.id) AS lastKnownId
  FROM t t1, t t2
  WHERE
    t1.value IS NOT NULL
    AND
    t2.id >= t1.id
  GROUP BY t2.id
)
SELECT
  tmp.id, t.value
FROM t, tmp
WHERE t.id = tmp.lastKnownId;

No entanto, a execução trivial desse código criaria internamente o quadrado da contagem das linhas da tabela de entrada ( O(n^2) ). Eu esperava que o t-sql o otimizasse - em um nível de bloco/registro, a tarefa a ser feita é muito fácil e linear, essencialmente um loop for ( O(n) ).

No entanto, em meus experimentos, o MS SQL 2016 mais recente não pode otimizar essa consulta corretamente, impossibilitando a execução dessa consulta para uma tabela de entrada grande.

Além disso, a consulta precisa ser executada rapidamente, tornando inviável uma solução baseada em cursor igualmente fácil (mas muito diferente).

Usar alguma tabela temporária com suporte de memória pode ser um bom compromisso, mas não tenho certeza se pode ser executado significativamente mais rápido, considerando que minha consulta de exemplo usando subconsultas não funcionou.

Também estou pensando em desenterrar algumas funções de janelas dos documentos do t-sql, o que poderia ser enganado para fazer o que eu quero. Por exemplo, soma cumulativa está fazendo algo muito semelhante, mas não consegui enganá-lo para fornecer o elemento não nulo mais recente, e não a soma dos elementos anteriores.

A solução ideal seria uma consulta rápida sem código de procedimento ou tabelas temporárias. Alternativamente, também uma solução com tabelas temporárias é aceitável, mas iterar a tabela proceduralmente não é.

sql-server t-sql
  • 3 3 respostas
  • 10289 Views

3 respostas

  • Voted
  1. Best Answer
    Paul White
    2019-04-01T16:30:32+08:002019-04-01T16:30:32+08:00

    Uma solução comum para este tipo de problema é dada por Itzik Ben-Gan em seu artigo The Last non NULL Puzzle :

    DROP TABLE IF EXISTS dbo.Example;
    
    CREATE TABLE dbo.Example
    (
        id integer PRIMARY KEY,
        val integer NULL
    );
    
    INSERT dbo.Example
        (id, val)
    VALUES
        (1, 136),
        (2, NULL),
        (3, 650),
        (4, NULL),
        (5, NULL),
        (6, NULL),
        (7, 954),
        (8, NULL),
        (9, 104),
        (10, NULL);
    
    SELECT
        E.id,
        E.val,
        lastval =
            CAST(
                SUBSTRING(
                    MAX(CAST(E.id AS binary(4)) + CAST(E.val AS binary(4))) OVER (
                        ORDER BY E.id
                        ROWS UNBOUNDED PRECEDING),
                5, 4)
            AS integer)
    FROM dbo.Example AS E
    ORDER BY
        E.id;
    

    Demonstração: db<>fiddle

    • 12
  2. Joe Obbish
    2019-04-01T14:31:12+08:002019-04-01T14:31:12+08:00

    Eu esperava que o t-sql o otimizasse - em um nível de bloco/registro, a tarefa a ser feita é muito fácil e linear, essencialmente um loop for ( O(n) ).

    Essa não é a consulta que você escreveu. Pode não ser equivalente à consulta que você escreveu, dependendo de alguns detalhes menores do esquema da tabela. Você está esperando demais do otimizador de consultas.

    Com a indexação correta, você pode obter o algoritmo que procura através do seguinte T-SQL:

    SELECT t1.id, ca.[VALUE] 
    FROM dbo.[BIG_TABLE(FOR_U)] t1
    CROSS APPLY (
        SELECT TOP (1) [VALUE]
        FROM dbo.[BIG_TABLE(FOR_U)] t2
        WHERE t2.ID <= t1.ID AND t2.[VALUE] IS NOT NULL
        ORDER BY t2.ID DESC
    ) ca; --ORDER BY t1.ID ASC
    

    Para cada linha, o processador de consultas percorre o índice para trás e para quando encontra uma linha com um valor não nulo para [VALUE]. Na minha máquina, isso termina em cerca de 90 segundos para 100 milhões de linhas na tabela de origem. A consulta é executada por mais tempo do que o necessário porque algum tempo é desperdiçado no cliente descartando todas essas linhas.

    Não está claro para mim se você precisa de resultados ordenados ou o que planeja fazer com um conjunto de resultados tão grande. A consulta pode ser ajustada para atender ao cenário real. A maior vantagem dessa abordagem é que ela não requer uma classificação no plano de consulta. Isso pode ajudar para conjuntos de resultados maiores. Uma desvantagem é que o desempenho não será ótimo se houver muitos NULLs na tabela porque muitas linhas serão lidas do índice e descartadas. Você deve conseguir melhorar o desempenho com um índice filtrado que exclua NULLs para esse caso.

    Dados de amostra para o teste:

    DROP TABLE IF EXISTS #t;
    
    CREATE TABLE #t (
    ID BIGINT NOT NULL
    );
    
    INSERT INTO #t WITH (TABLOCK)
    SELECT TOP (10000) ROW_NUMBER() OVER (ORDER BY (SELECT NULL)) - 1
    FROM master..spt_values t1
    CROSS JOIN master..spt_values t2
    OPTION (MAXDOP 1);
    
    DROP TABLE IF EXISTS dbo.[BIG_TABLE(FOR_U)];
    
    CREATE TABLE dbo.[BIG_TABLE(FOR_U)] (
    ID BIGINT NOT NULL,
    [VALUE] BIGINT NULL
    );
    
    INSERT INTO dbo.[BIG_TABLE(FOR_U)] WITH (TABLOCK)
    SELECT 10000 * t1.ID + t2.ID, CASE WHEN (t1.ID + t2.ID) % 3 = 1 THEN t2.ID ELSE NULL END
    FROM #t t1
    CROSS JOIN #t t2;
    
    CREATE UNIQUE CLUSTERED INDEX ADD_ORDERING ON dbo.[BIG_TABLE(FOR_U)] (ID);
    
    • 11
  3. Randi Vertongen
    2019-04-01T09:54:58+08:002019-04-01T09:54:58+08:00

    Um método, usando OVER()and MAX()e COUNT()com base nessa fonte , pode ser:

    SELECT ID, MAX(value) OVER (PARTITION BY Value2) as value
    FROM
    (
        SELECT ID, value
            ,COUNT(value) OVER (ORDER BY ID) AS Value2
        FROM dbo.HugeTable
    ) a
    ORDER BY ID;
    

    Resultado

    Id  UpdatedValue
    1   136
    2   136
    3   650
    4   650
    5   650
    6   650
    7   954
    8   954
    9   104
    10  104
    

    Outro método baseado nesta fonte , intimamente relacionado com o primeiro exemplo

    ;WITH CTE As 
    ( 
    SELECT  value,
            Id, 
            COUNT(value) 
            OVER(ORDER BY Id) As  Value2 
    FROM dbo.HugeTable
    ),
    
    CTE2 AS ( 
    SELECT Id,
           value,
           First_Value(value)  
           OVER( PARTITION BY Value2
                 ORDER BY Id) As UpdatedValue 
    FROM CTE 
                ) 
    SELECT Id,UpdatedValue 
    FROM CTE2;
    
    • 8

relate perguntas

  • SQL Server - Como as páginas de dados são armazenadas ao usar um índice clusterizado

  • Preciso de índices separados para cada tipo de consulta ou um índice de várias colunas funcionará?

  • Quando devo usar uma restrição exclusiva em vez de um índice exclusivo?

  • Quais são as principais causas de deadlocks e podem ser evitadas?

  • Como determinar se um Índice é necessário ou necessário

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

    • 12 respostas
  • Marko Smith

    Como fazer a saída do sqlplus aparecer em uma linha?

    • 3 respostas
  • Marko Smith

    Selecione qual tem data máxima ou data mais recente

    • 3 respostas
  • Marko Smith

    Como faço para listar todos os esquemas no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Listar todas as colunas de uma tabela especificada

    • 5 respostas
  • Marko Smith

    Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

    • 4 respostas
  • Marko Smith

    Como você mysqldump tabela (s) específica (s)?

    • 4 respostas
  • Marko Smith

    Listar os privilégios do banco de dados usando o psql

    • 10 respostas
  • Marko Smith

    Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Como faço para listar todos os bancos de dados e tabelas usando o psql?

    • 7 respostas
  • Martin Hope
    Jin conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane Como faço para listar todos os esquemas no PostgreSQL? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh Por que o log de transações continua crescendo ou fica sem espaço? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland Listar todas as colunas de uma tabela especificada 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney O MySQL pode realizar consultas razoavelmente em bilhões de linhas? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx Como posso monitorar o andamento de uma importação de um arquivo .sql grande? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison Como você mysqldump tabela (s) específica (s)? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas Como posso cronometrar consultas SQL usando psql? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas Como faço para listar todos os bancos de dados e tabelas usando o psql? 2011-02-18 00:45:49 +0800 CST

Hot tag

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve