AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / dba / Perguntas / 64353
Accepted
Chris L
Chris L
Asked: 2014-05-03 03:13:37 +0800 CST2014-05-03 03:13:37 +0800 CST 2014-05-03 03:13:37 +0800 CST

Recuperar próximo item da fila

  • 772

Eu tenho uma tabela simples no SQL Server 2012 que implementa uma fila de processamento. Como os dados foram inseridos, a consulta para recuperar o próximo item passou de <100ms para uma constante de 5 a 6 segundos. Eu ficaria imensamente grato se alguém pudesse me apontar a causa dessa queda repentina no desempenho. (Parece ter sido uma queda quase da noite para o dia).

Aqui está a definição da tabela:

CREATE TABLE [dbo].[messagequeue] (
    [id]             INT             IDENTITY (1, 1) NOT NULL,
    [testrunident]   VARCHAR (255)   NOT NULL,
    [filesequence]   INT             NOT NULL,
    [processed]      BIT             NOT NULL,
    [dateentered]    DATETIME        NULL,
    [filedata]       VARBINARY (MAX) NULL,
    [retries]        INT             NOT NULL,
    [failed]         BIT             NOT NULL,
    [msgobject]      VARBINARY (MAX) NULL,
    [errortext]      VARCHAR (MAX)   NULL,
    [sourcefilename] VARCHAR (MAX)   NULL,
    [xmlsource]      VARCHAR (MAX)   NULL,
    [messagetype]    VARCHAR (255)   NULL
);

CREATE NONCLUSTERED INDEX [messagequeue_sequenc_failed_idx]
    ON [dbo].[messagequeue]([processed] ASC, [failed] ASC)
    INCLUDE([id], [testrunident], [filesequence]);

CREATE NONCLUSTERED INDEX [messagequeue_sequence_idx]
    ON [dbo].[messagequeue]([testrunident] ASC, [processed] ASC)
    INCLUDE([filesequence]);

CREATE UNIQUE NONCLUSTERED INDEX [IXd_testrun_sequence]
    ON [dbo].[messagequeue]([testrunident] ASC, [filesequence] ASC);

E aqui está a consulta usada para recuperar a próxima linha a ser processada:

select messagequeue.id, messagequeue.testrunident, messagequeue.filesequence,
    messagequeue.processed, messagequeue.filedata, messagequeue.retries, messagequeue.failed, 
    messagequeue.msgobject, messagequeue.xmlsource 
    from messagequeue where id = (
        select top 1 id from messagequeue mqouter
        where processed = 0
        AND failed = 0
        AND (filesequence = 0 OR
        filesequence = (
                select max (filesequence) + 1
                from messagequeue mqinner 
                where mqinner.testrunident = mqouter.testrunident
                and mqinner.processed = 1
            )
        )
        order by testrunident, filesequence
        )

Existem várias linhas com o mesmo testrunident, cada uma tem um filesequenceque deve ser sequencial, no entanto, algumas podem estar faltando, portanto, a consulta deve retornar apenas a próxima linha onde a linha anterior possui processed = 1ou filesequence = 0que indica que esta é a primeira linha dentro de um testrunidentgrupo.

Aqui está um SQLFiddle para dar uma ideia: SQL Fiddle

Plano de consulta : plano de consulta XML

Existe uma maneira melhor de escrever a consulta?

EDIT 1 - Exemplo de como garantir que a linha anterior foi processada antes de selecionar uma linha:

Where `id` = testrunident and `fs` = filesequence

id | fs | processed 
1  | 0  |  1
1  | 1  |  1
1  | 2  |  1
1  | 4  |  0 -- this shouldn't be next as no row with seqeuence = 3 and processed = 1
2  | 0  |  0 --this should be the next row
2  | 1  |  0

SQLFiddle destacando isso

sql-server sql-server-2012
  • 1 1 respostas
  • 1161 Views

1 respostas

  • Voted
  1. Best Answer
    Paul White
    2014-05-05T06:44:24+08:002014-05-05T06:44:24+08:00

    Tomando apenas a parte principal que identifica a idlinha a ser retornada, a consulta a seguir encapsula a lógica necessária:

    SELECT TOP (1)
        MQ.id
    FROM dbo.messagequeue AS MQ
    WHERE
        -- Current row
        MQ.processed = 0
        AND MQ.failed = 0
        AND 
        (
            EXISTS
            (
                -- Previous row in strict sequence
                SELECT * 
                FROM dbo.messagequeue AS MQ2
                WHERE
                    MQ2.testrunident = MQ.testrunident
                    AND MQ2.processed = 1
                    AND MQ2.failed = 0
                    AND MQ2.filesequence = MQ.filesequence - 1
            )
            OR MQ.filesequence = 0
        )
    ORDER BY 
        MQ.testrunident ASC,
        MQ.filesequence ASC;
    

    A execução dessa consulta com eficiência requer uma pequena alteração em um índice existente, cuja definição é atualmente:

    CREATE NONCLUSTERED INDEX [messagequeue_sequenc_failed_idx]
        ON [dbo].[messagequeue]([processed] ASC, [failed] ASC)
        INCLUDE([id], [testrunident], [filesequence]);
    

    A mudança envolve mover testrunidente filesequenceda INCLUDElista para as chaves de índice. O novo índice ainda oferece suporte a todas as consultas que o antigo fazia e, como efeito colateral da alteração, o índice redefinido agora pode ser marcado como UNIQUE. O script a seguir fará essa alteração (você pode fazer essa operação ONLINEse estiver executando o Enterprise Edition):

    CREATE UNIQUE NONCLUSTERED INDEX [messagequeue_sequenc_failed_idx]
    ON [dbo].[messagequeue]
    (
        [processed] ASC, 
        [failed] ASC, 
        testrunident ASC, 
        filesequence ASC
    )
    INCLUDE 
    (
        [id]
    )
    WITH 
    (
        DROP_EXISTING = ON
        --, ONLINE = ON
    );
    

    Com esse índice definido, o plano de execução para a consulta revisada é:

    Plano de execução

    Para retornar dados da linha identificada, a consulta final é uma extensão simples:

    SELECT
        MQ3.id,
        MQ3.testrunident,
        MQ3.filesequence,
        MQ3.processed,
        MQ3.filedata,
        MQ3.retries,
        MQ3.failed,
        MQ3.msgobject,
        MQ3.xmlsource
    FROM dbo.messagequeue AS MQ3
    WHERE
        MQ3.id =
        (
            SELECT TOP (1)
                MQ.id
            FROM dbo.messagequeue AS MQ
            WHERE
                MQ.processed = 0
                AND MQ.failed = 0
                AND 
                (
                    EXISTS
                    (
                        SELECT * 
                        FROM dbo.messagequeue AS MQ2
                        WHERE
                            MQ2.testrunident = MQ.testrunident
                            AND MQ2.filesequence = MQ.filesequence - 1
                            AND MQ2.processed = 1
                            AND MQ2.failed = 0
                    )
                    OR MQ.filesequence = 0
                )
            ORDER BY 
                MQ.testrunident ASC,
                MQ.filesequence ASC
        );
    

    Plano de execução final

    Segunda opçao

    Existe outra opção porque você está usando o SQL Server 2012, que introduziu as funções LAGe LEADwindow :

    SELECT TOP (1)
        ML.id
    FROM 
    (
        SELECT 
            M.id, 
            M.testrunident,
            M.filesequence,
            M.processed,
            M.failed,
            PreviousProcessed = LAG(M.processed) OVER (
                ORDER BY M.testrunident, M.filesequence),
            PreviousFailed = LAG(M.failed) OVER (
                ORDER BY M.testrunident, M.filesequence),
            PreviousFileSequence = LAG(M.filesequence) OVER (
                ORDER BY M.testrunident, M.filesequence)
        FROM dbo.messagequeue AS M
    ) AS ML
    WHERE
        -- Current row
        ML.processed = 0
        AND ML.failed = 0
        -- Previous row in strict order
        AND ML.PreviousProcessed = 1
        AND ML.PreviousFailed = 0
        AND ML.PreviousFileSequence = ML.filesequence - 1
    ORDER BY 
        ML.testrunident, 
        ML.filesequence;
    

    Esta consulta também precisa de um ajuste em um índice existente, desta vez adicionando processede failedcomo colunas incluídas:

    CREATE UNIQUE NONCLUSTERED INDEX [IXd_testrun_sequence]
    ON [dbo].[messagequeue]
    (
        [testrunident] ASC, 
        [filesequence] ASC
    )
    INCLUDE 
    (
        [processed],
        [failed]
    )
    WITH 
    (
        DROP_EXISTING = ON
        --, ONLINE = ON
    );
    

    Com esse índice definido, o plano de execução é:

    Plano de execução do GAL

    Também devo mencionar que sua abordagem geral seria insegura se mais de um processo estivesse trabalhando na mesma fila ao mesmo tempo. Para obter mais informações sobre isso e o design geral da tabela de filas, consulte o excelente artigo de Remus Rusanu, Using Tables As Queues .

    Análise adicional

    O plano de execução original mostrou uma grande diferença entre o número de linhas que o SQL Server esperava processar e o número realmente encontrado durante a execução. Abrir o plano com o SQL Sentry Plan Explorer mostra essas diferenças claramente:

    Explorador de Planos Visualização em Árvore de Planos

    O SQL Server escolheu uma estratégia de execução que teria funcionado bem se o número de linhas realmente fosse tão pequeno quanto estimado :

    Contagens estimadas de linhas

    Infelizmente, a estratégia escolhida não escalou bem quando as estimativas se mostraram muito baixas. Partes do plano de execução foram realmente executadas 458.260 vezes - não uma receita para resultados instantâneos. Se o otimizador do SQL Server conhecesse os números verdadeiros, provavelmente teria escolhido uma estratégia diferente.

    Contagens reais de linhas

    É tentador pensar que uma discrepância entre as contagens de linhas estimadas e reais deve-se a informações estatísticas imprecisas, mas é provável que você tenha estatísticas automáticas de coluna única razoavelmente atualizadas nessas tabelas. Melhorias podem ser feitas fornecendo informações estatísticas adicionais, mas a causa raiz das estimativas imprecisas é algo bem diferente neste caso.

    Por padrão, quando o SQL Server escolhe um plano de execução para uma consulta, ele assume que todas as linhas de resultados potenciais serão retornadas ao cliente. No entanto, quando o SQL Server vê um TOPoperador, ele considera corretamente o número de linhas especificadas ao estimar a cardinalidade. Esse comportamento é conhecido como definir uma meta de linha .

    Essencialmente, uma meta de linha significa que o otimizador reduz as estimativas sob o operador Top para refletir o fato de que menos linhas serão necessárias do que o tamanho potencial total do conjunto de resultados. Essa escala assume implicitamente que os valores de interesse são distribuídos uniformemente dentro do conjunto.

    Por exemplo, digamos que você tenha uma tabela com 1.000 linhas, das quais 10 satisfazem algum predicado de consulta. Usando estatísticas, o SQL Server sabe que 1% das linhas atendem aos critérios. Se você escrever uma consulta para retornar a primeira linha correspondente, o SQL Server assumirá que precisará ler 1% da tabela (= 10 linhas) para localizar a primeira correspondência. No pior caso, as dez linhas que atendem aos critérios podem aparecer por último (em qualquer ordem em que forem pesquisadas), portanto, 990 linhas que não correspondem serão lidas antes que o SQL Server encontre aquela que você deseja.

    The improved query (using the improved index) still suffers from this problem to a certain extent, but the effects are much less marked:

    Árvore de plano de consulta aprimorada

    The fundamental question we are asking of the optimizer's row goal logic here is: how many rows do we need to check before we find the first one (according to the order by clause specification) that is in sequence, unprocessed, and not marked as having failed. This is a tough question to answer based on the limited statistics SQL Server keeps.

    In fact there is very little we can do to communicate all nuances of this complex problem to the optimizer effectively. The best we can do is to provide it with an efficient index that we expect to locate the qualifying row as early as possible.

    In this case, that means providing an index that returns unprocessed, un-failed entries in order by clause order. We expect to have to check relatively few of these before finding the first one that is in sequence (i.e. the preceding row exists and is marked as processed and not marked as failed).

    Both solutions shown above eliminate the Key Lookup operations seen in the original query because the new index now includes (covers) all needed columns. Also, the new index is likely to find the target row more quickly. The original execution plan scanned index IXd_testrun_sequence in (testrunident, filesequence) order, meaning it would encounter old test runs first, most of which will be marked processed. We are looking for unprocessed rows in the outer query, so this strategy was inefficient (we end up performing the sequence check on 458,260 rows).

    Por fim, verificar um valor de sequência específico é muito mais eficiente do que encontrar o máximo de um conjunto potencialmente grande. Essa é a diferença que destaquei no código anterior ao procurar a linha anterior em sequência estrita. Há uma diferença semântica entre essas duas consultas e a solução MAXmostrada na pergunta. Pelo que entendi, você está interessado na primeira linha correspondente; essa linha não precisa ser a mais alta filesequencepara o arquivo testrunident.

    • 7

relate perguntas

  • SQL Server - Como as páginas de dados são armazenadas ao usar um índice clusterizado

  • Preciso de índices separados para cada tipo de consulta ou um índice de várias colunas funcionará?

  • Quando devo usar uma restrição exclusiva em vez de um índice exclusivo?

  • Quais são as principais causas de deadlocks e podem ser evitadas?

  • Como determinar se um Índice é necessário ou necessário

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

    • 12 respostas
  • Marko Smith

    Como fazer a saída do sqlplus aparecer em uma linha?

    • 3 respostas
  • Marko Smith

    Selecione qual tem data máxima ou data mais recente

    • 3 respostas
  • Marko Smith

    Como faço para listar todos os esquemas no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Listar todas as colunas de uma tabela especificada

    • 5 respostas
  • Marko Smith

    Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

    • 4 respostas
  • Marko Smith

    Como você mysqldump tabela (s) específica (s)?

    • 4 respostas
  • Marko Smith

    Listar os privilégios do banco de dados usando o psql

    • 10 respostas
  • Marko Smith

    Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Como faço para listar todos os bancos de dados e tabelas usando o psql?

    • 7 respostas
  • Martin Hope
    Jin conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane Como faço para listar todos os esquemas no PostgreSQL? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh Por que o log de transações continua crescendo ou fica sem espaço? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland Listar todas as colunas de uma tabela especificada 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney O MySQL pode realizar consultas razoavelmente em bilhões de linhas? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx Como posso monitorar o andamento de uma importação de um arquivo .sql grande? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison Como você mysqldump tabela (s) específica (s)? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas Como posso cronometrar consultas SQL usando psql? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas Como faço para listar todos os bancos de dados e tabelas usando o psql? 2011-02-18 00:45:49 +0800 CST

Hot tag

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve