AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / dba / Perguntas / 334300
Accepted
tuskiomi
tuskiomi
Asked: 2023-12-23 11:05:33 +0800 CST2023-12-23 11:05:33 +0800 CST 2023-12-23 11:05:33 +0800 CST

otimizar SELECT MAX() com GROUP BY no Postgres?

  • 772

Estou tentando acelerar a seguinte consulta no postgres:

select MAX(msg."timestamp") AS latestDate, msg.channel_id from message msg group by msg.channel_id

o explainé como tal:

Finalize GroupAggregate  (cost=1000.63..2442779.42 rows=305 width=24)
  Group Key: channel_id
  ->  Gather Merge  (cost=1000.63..2442770.27 rows=1220 width=24)
        Workers Planned: 4
        ->  Partial GroupAggregate  (cost=0.57..2441624.90 rows=305 width=24)
              Group Key: channel_id
              ->  Parallel Index Only Scan using message_channel_id_timestamp on message msg  (cost=0.57..2243767.89 rows=39570792 width=24)
JIT:
  Functions: 6
  Options: Inlining true, Optimization true, Expressions true, Deforming true

O DDL da tabela é assim:

CREATE TABLE public.message (
    message_pgid bigserial NOT NULL,
    id uuid NOT NULL,
    "timestamp" timestamptz NOT NULL,
    "content" text NOT NULL,
    channel_id uuid NOT NULL,
    CONSTRAINT message_pk PRIMARY KEY (message_pgid),
    CONSTRAINT message_un UNIQUE (channel_id, id)
);
CREATE INDEX message_channel_id_idx ON public.message USING btree (channel_id);
CREATE INDEX message_channel_id_timestamp ON public.message USING btree (channel_id, "timestamp");
CREATE INDEX message_id ON public.message USING btree (id);
CREATE INDEX message_timestamp_idx ON public.message USING btree ("timestamp");


-- public.message foreign keys
ALTER TABLE public.message ADD CONSTRAINT channel_fk FOREIGN KEY (channel_id) REFERENCES public.channel(id) DEFERRABLE;
ALTER TABLE public.message ADD CONSTRAINT message_fk FOREIGN KEY (user_id) REFERENCES public."user"(id);

e por fim, o explain analyze:

Finalize GroupAggregate  (cost=1000.63..2442779.42 rows=305 width=24) (actual time=7631.501..7673.692 rows=597 loops=1)
  Group Key: channel_id
  ->  Gather Merge  (cost=1000.63..2442770.27 rows=1220 width=24) (actual time=7631.383..7673.511 rows=1667 loops=1)
        Workers Planned: 4
        Workers Launched: 4
        ->  Partial GroupAggregate  (cost=0.57..2441624.90 rows=305 width=24) (actual time=305.736..6125.479 rows=333 loops=5)
              Group Key: channel_id
              ->  Parallel Index Only Scan using message_channel_id_timestamp on message msg  (cost=0.57..2243767.89 rows=39570792 width=24) (actual time=0.557..4938.221 rows=31656633 loops=5)
                    Heap Fetches: 32082
Planning Time: 4.032 ms
JIT:
  Functions: 18
  Options: Inlining true, Optimization true, Expressions true, Deforming true
  Timing: Generation 12.315 ms, Inlining 193.685 ms, Optimization 122.739 ms, Emission 100.570 ms, Total 429.309 ms
Execution Time: 7684.655 ms  

Como você pode ver, mesmo com um índice btree, a operação ainda leva 7,6 segundos, a maior parte dos quais é gasta apenas na varredura paralela do índice. Não sei como acelerar isso ainda mais. o índice tem um tamanho relativo de 5,7 G e dou à minha instância 6 GB de RAM, o que deve ser mais que suficiente para uma pesquisa btree max. Eu defini minhas configurações de acordo com pgtune ( https://pgtune.leopard.in.ua/ ).

Há alguma coisa que esteja faltando em face das coisas?

postgresql
  • 1 1 respostas
  • 39 Views

1 respostas

  • Voted
  1. Best Answer
    bobflux
    2023-12-23T19:33:14+08:002023-12-23T19:33:14+08:00

    Infelizmente, o postgres não implementa (ainda) o tipo de verificação de índice necessário para otimizar esta consulta automaticamente, portanto, ele verificará todo o índice.

    É capaz de usar um índice em (a,b) para otimizar "max(b) WHERE a=..." e também "WHERE a=... ORDER BY b DESC LIMIT 1" que retorna a linha inteira com maior valor de b (isso pode ser mais útil do que apenas max() se você realmente quiser outras colunas). Mas isso é apenas para um valor de a, ou vários em um loop aninhado, e não para toda a tabela, como você está fazendo.

    Supondo que você tenha uma tabela separada "canais" com a chave primária "channel_id" que é referenciada pelas mensagens da sua tabela, é fácil emular isso manualmente.

    O Postgres sabe como encontrar a linha desejada usando um índice se você solicitar apenas um valor de channel_id. Portanto, o truque é fazer isso para cada valor de channel_id, usando uma subconsulta dependente (se você quiser apenas a coluna max()) ou uma junção LATERAL (se você também quiser outras colunas, como o conteúdo da última mensagem).

    Isso resulta em uma varredura de índice nas mensagens por valor de channel_id. Portanto, o tempo está em O(número de canais * log(número de mensagens)) que deve ser muito mais rápido do que verificar toda a tabela de mensagens. Além disso, ele acessa apenas as páginas com as mensagens mais recentes, portanto não destrói seu cache.

    Crie dados de teste:

    CREATE UNLOGGED TABLE messages( ts INT NOT NULL, channel_id INT NOT NULL );
    INSERT INTO messages SELECT n,n%1000 FROM generate_series(1,1000000) n;
    CREATE INDEX ON messages( channel_id, ts );
    
    CREATE UNLOGGED TABLE channels ( channel_id INT PRIMARY KEY );
    INSERT INTO channels SELECT DISTINCT channel_id FROM messages;
    VACUUM ANALYZE;
    

    Consultas lentas que leem a tabela inteira (ou índice):

    -- SLOW
    EXPLAIN ANALYZE SELECT channel_id, max(ts) FROM messages GROUP BY channel_id;
    
     Finalize GroupAggregate  (cost=11734.85..11988.20 rows=1000 width=8) (actual time=58.321..60.128 rows=1000 loops=1)
       Group Key: channel_id
       ->  Gather Merge  (cost=11734.85..11968.20 rows=2000 width=8) (actual time=58.315..59.871 rows=3000 loops=1)
             Workers Planned: 2
             Workers Launched: 2
             ->  Sort  (cost=10734.83..10737.33 rows=1000 width=8) (actual time=54.080..54.119 rows=1000 loops=3)
                   Sort Key: channel_id
                   Sort Method: quicksort  Memory: 56kB
                   Worker 0:  Sort Method: quicksort  Memory: 56kB
                   Worker 1:  Sort Method: quicksort  Memory: 56kB
                   ->  Partial HashAggregate  (cost=10675.00..10685.00 rows=1000 width=8) (actual time=53.872..53.958 rows=1000 loops=3)
                         Group Key: channel_id
                         Batches: 1  Memory Usage: 129kB
                         Worker 0:  Batches: 1  Memory Usage: 129kB
                         Worker 1:  Batches: 1  Memory Usage: 129kB
                         ->  Parallel Seq Scan on messages  (cost=0.00..8591.67 rows=416667 width=8) (actual time=0.009..16.164 rows=333333 loops=3)
     Planning Time: 0.167 ms
     Execution Time: 60.236 ms
    
    -- SLOW
    EXPLAIN ANALYZE SELECT channel_id, max(ts) 
    FROM channels JOIN messages USING (channel_id)
    GROUP BY channel_id;
    
     Finalize GroupAggregate  (cost=12860.74..13114.09 rows=1000 width=8) (actual time=94.136..96.019 rows=1000 loops=1)
       Group Key: channels.channel_id
       ->  Gather Merge  (cost=12860.74..13094.09 rows=2000 width=8) (actual time=94.131..95.758 rows=3000 loops=1)
             Workers Planned: 2
             Workers Launched: 2
             ->  Sort  (cost=11860.72..11863.22 rows=1000 width=8) (actual time=92.507..92.542 rows=1000 loops=3)
                   Sort Key: channels.channel_id
                   Sort Method: quicksort  Memory: 56kB
                   Worker 0:  Sort Method: quicksort  Memory: 56kB
                   Worker 1:  Sort Method: quicksort  Memory: 56kB
                   ->  Partial HashAggregate  (cost=11800.89..11810.89 rows=1000 width=8) (actual time=92.299..92.386 rows=1000 loops=3)
                         Group Key: channels.channel_id
                         Batches: 1  Memory Usage: 129kB
                         Worker 0:  Batches: 1  Memory Usage: 129kB
                         Worker 1:  Batches: 1  Memory Usage: 129kB
                         ->  Hash Join  (cost=27.50..9717.56 rows=416667 width=8) (actual time=0.154..58.426 rows=333333 loops=3)
                               Hash Cond: (messages.channel_id = channels.channel_id)
                               ->  Parallel Seq Scan on messages  (cost=0.00..8591.67 rows=416667 width=8) (actual time=0.004..16.329 rows=333333 loops=3)
                               ->  Hash  (cost=15.00..15.00 rows=1000 width=4) (actual time=0.143..0.143 rows=1000 loops=3)
                                     Buckets: 1024  Batches: 1  Memory Usage: 44kB
                                     ->  Seq Scan on channels  (cost=0.00..15.00 rows=1000 width=4) (actual time=0.006..0.060 rows=1000 loops=3)
     Planning Time: 0.127 ms
     Execution Time: 96.066 ms
    

    Consulta muito mais rápida que encontra a linha mais recente para cada channel_id imediatamente usando o índice, usando uma subconsulta dependente que seleciona max(ts):

    -- FAST
    EXPLAIN ANALYZE SELECT channel_id, 
    (SELECT max(ts) FROM messages m WHERE m.channel_id=c.channel_id) 
    FROM channels c;
    
     Seq Scan on channels c  (cost=0.00..482.00 rows=1000 width=8) (actual time=0.023..7.308 rows=1000 loops=1)
       SubPlan 2
         ->  Result  (cost=0.46..0.47 rows=1 width=4) (actual time=0.007..0.007 rows=1 loops=1000)
               InitPlan 1 (returns $1)
                 ->  Limit  (cost=0.42..0.46 rows=1 width=4) (actual time=0.007..0.007 rows=1 loops=1000)
                       ->  Index Only Scan using messages_channel_id_ts_idx on messages m  (cost=0.42..32.42 rows=1000 width=4) (actual time=0.007..0.007 rows=1 loops=1000)
                             Index Cond: ((channel_id = c.channel_id) AND (ts IS NOT NULL))
                             Heap Fetches: 0
     Planning Time: 0.072 ms
     Execution Time: 7.349 ms
    

    Variante usando LATERAL que tem as seguintes vantagens: pode retornar mais colunas da mensagem caso você precise delas, e pode retornar as últimas ou N últimas mensagens (basta alterar o LIMITE) por canal.

    EXPLAIN ANALYZE SELECT * FROM channels c
    LEFT JOIN LATERAL (
     SELECT * FROM messages m WHERE m.channel_id=c.channel_id
     ORDER BY ts DESC LIMIT 1) USING(channel_id);
    
    
     Nested Loop Left Join  (cost=0.42..492.00 rows=1000 width=8) (actual time=0.085..10.320 rows=1000 loops=1)
       ->  Seq Scan on channels c  (cost=0.00..15.00 rows=1000 width=4) (actual time=0.019..0.109 rows=1000 loops=1)
       ->  Subquery Scan on unnamed_subquery  (cost=0.42..0.47 rows=1 width=8) (actual time=0.010..0.010 rows=1 loops=1000)
             Filter: (c.channel_id = unnamed_subquery.channel_id)
             ->  Limit  (cost=0.42..0.45 rows=1 width=8) (actual time=0.010..0.010 rows=1 loops=1000)
                   ->  Index Only Scan using messages_channel_id_ts_idx on messages m  (cost=0.42..29.93 rows=1000 width=8) (actual time=0.009..0.009 rows=1 loops=1000)
                         Index Cond: (channel_id = c.channel_id)
                         Heap Fetches: 0
     Planning Time: 0.313 ms
     Execution Time: 10.411 ms
    

    A sintaxe LATERAL JOIN é um pouco estranha. Se você deseja uma linha para um channel_id que não possui mensagens, você precisa usar LEFT JOIN, e isso requer uma condição de junção (USING(channel_id)). Mas por ser um LATERAL JOIN, a tabela direita na junção depende da linha esquerda, portanto esta condição já está especificada nela. Portanto, há um pouco de duplicação.

    • 1

relate perguntas

  • Posso ativar o PITR depois que o banco de dados foi usado

  • Práticas recomendadas para executar a replicação atrasada do deslocamento de tempo

  • Os procedimentos armazenados impedem a injeção de SQL?

  • Sequências Biológicas do UniProt no PostgreSQL

  • Qual é a diferença entre a replicação do PostgreSQL 9.0 e o Slony-I?

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

    • 12 respostas
  • Marko Smith

    Como fazer a saída do sqlplus aparecer em uma linha?

    • 3 respostas
  • Marko Smith

    Selecione qual tem data máxima ou data mais recente

    • 3 respostas
  • Marko Smith

    Como faço para listar todos os esquemas no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Listar todas as colunas de uma tabela especificada

    • 5 respostas
  • Marko Smith

    Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

    • 4 respostas
  • Marko Smith

    Como você mysqldump tabela (s) específica (s)?

    • 4 respostas
  • Marko Smith

    Listar os privilégios do banco de dados usando o psql

    • 10 respostas
  • Marko Smith

    Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Como faço para listar todos os bancos de dados e tabelas usando o psql?

    • 7 respostas
  • Martin Hope
    Jin conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane Como faço para listar todos os esquemas no PostgreSQL? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh Por que o log de transações continua crescendo ou fica sem espaço? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland Listar todas as colunas de uma tabela especificada 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney O MySQL pode realizar consultas razoavelmente em bilhões de linhas? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx Como posso monitorar o andamento de uma importação de um arquivo .sql grande? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison Como você mysqldump tabela (s) específica (s)? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas Como posso cronometrar consultas SQL usando psql? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas Como faço para listar todos os bancos de dados e tabelas usando o psql? 2011-02-18 00:45:49 +0800 CST

Hot tag

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve