AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / dba / Perguntas / 118688
Accepted
St.Antario
St.Antario
Asked: 2015-10-21 21:35:43 +0800 CST2015-10-21 21:35:43 +0800 CST 2015-10-21 21:35:43 +0800 CST

Consulta mais rápida para IDs distintos em um relacionamento muitos-para-muitos

  • 772

Eu tenho esta tabela no PostgreSQL 9.4:

CREATE TABLE user_operations( 
    id SERIAL PRIMARY KEY, 
    operation_id integer, 
    user_id integer )

A tabela consiste em ~1000-2000diferentes operações, cada uma correspondendo a algum subconjunto (consistindo aproximadamente de 80000-120000elementos cada) do conjunto Sde todos os usuários:

S = {1, 2, 3, ... , 122655}

Parâmetros:

work_mem = 128MB
table_size = 880MB

Eu também tenho um índice no arquivo operation_id.

PERGUNTA: Qual seria o plano ideal para consultar todos os distintosuser_idpara uma parte significativa dooperation_idconjunto (20%-60%) como:

SELECT DISTINCT user_id FROM user_operation WHERE operation_id < 500

É possível criar mais índices na tabela . Atualmente, o plano para a consulta é:

HashAggregate  (cost=196173.56..196347.14 rows=17358 width=4) (actual time=1227.408..1359.947 rows=598336 loops=1)
  ->  Bitmap Heap Scan on user_operation  (cost=46392.24..189978.17 rows=2478155 width=4) (actual time=233.163..611.182 rows=2518122 loops=1)
        Recheck Cond: (operation_id < 500)
        ->  Bitmap Index Scan on idx  (cost=0.00..45772.70 rows=2478155 width=0) (actual time=230.432..230.432 rows=2518122 loops=1)
              Index Cond: (operation_id < 500)

Esse plano de consulta é realmente ideal nessas circunstâncias? Quero dizer, não tenho certeza sobre a correção de usar Bitmap Heap Scan. Eu apreciarei todas as referências a artigos relevantes.

postgresql count
  • 1 1 respostas
  • 1447 Views

1 respostas

  • Voted
  1. Best Answer
    Erwin Brandstetter
    2015-10-22T10:08:53+08:002015-10-22T10:08:53+08:00

    Qual seria o plano ideal para consultar todos os distintos user_id para uma parte significativa do operation_idconjunto (20%-60%).

    Use uma consulta recursiva:

    WITH RECURSIVE cte AS (
       (  -- parentheses are required
       SELECT user_id
       FROM   user_operations
       WHERE  operation_id < 500
       ORDER  BY user_id
       LIMIT  1
       )
       UNION ALL
       SELECT u.user_id
       FROM   cte, LATERAL (
          SELECT user_id
          FROM   user_operations
          WHERE  operation_id < 500
          AND    user_id > cte.user_id  -- lateral reference
          ORDER  BY user_id
          LIMIT  1
          ) u
       )
    TABLE cte;
    

    Em combinação com um índice nas colunas nessa ordem (user_id, operation_id). Espero varreduras de índice que filtrem na segunda coluna. Estatísticas de tabela razoavelmente precisas são importantes, então o Postgres sabe que só terá que pular algumas linhas no índice para encontrar a próxima . Geralmente, pode -se querer aumentar a meta de estatísticas em particular para:user_idoperation_id

    ALTER TABLE user_operations ALTER operation_id SET STATISTICS 1000;
    

    Como existem apenas ~1000-2000 different operations, isso pode nem ser necessário, mas é um pequeno preço a pagar.

    Detalhes:

    • Otimizando consultas em um intervalo de timestamps (duas colunas)

    Se o predicado operation_id < 500for estável (sempre o mesmo), torne-o um índice parcial apenas (user_id):

    CREATE INDEX foo ON user_operations (user_id) WHERE operation_id < 500;
    

    Então as estatísticas operation_idnão são mais relevantes para esta consulta.

    Mesmo que o predicado não seja estável, pode haver maneiras de otimizar - dependendo de toda a gama de condições possíveis e frequências de valor.

    O desempenho deve ser... delicioso .

    Eu otimizei a técnica nesta resposta relacionada no SO (com explicação detalhada):

    • Otimize a consulta GROUP BY para recuperar o registro mais recente por usuário

    Se você tiver uma userstabela separada e uma grande parte de todos os usuários puder ser encontrada em sua amostra, estilos de consulta ainda mais rápidos serão possíveis. Detalhes na resposta vinculada.

    • 4

relate perguntas

  • Posso ativar o PITR depois que o banco de dados foi usado

  • Práticas recomendadas para executar a replicação atrasada do deslocamento de tempo

  • Os procedimentos armazenados impedem a injeção de SQL?

  • Sequências Biológicas do UniProt no PostgreSQL

  • Qual é a diferença entre a replicação do PostgreSQL 9.0 e o Slony-I?

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

    • 12 respostas
  • Marko Smith

    Como fazer a saída do sqlplus aparecer em uma linha?

    • 3 respostas
  • Marko Smith

    Selecione qual tem data máxima ou data mais recente

    • 3 respostas
  • Marko Smith

    Como faço para listar todos os esquemas no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Listar todas as colunas de uma tabela especificada

    • 5 respostas
  • Marko Smith

    Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

    • 4 respostas
  • Marko Smith

    Como você mysqldump tabela (s) específica (s)?

    • 4 respostas
  • Marko Smith

    Listar os privilégios do banco de dados usando o psql

    • 10 respostas
  • Marko Smith

    Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Como faço para listar todos os bancos de dados e tabelas usando o psql?

    • 7 respostas
  • Martin Hope
    Jin conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane Como faço para listar todos os esquemas no PostgreSQL? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh Por que o log de transações continua crescendo ou fica sem espaço? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland Listar todas as colunas de uma tabela especificada 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney O MySQL pode realizar consultas razoavelmente em bilhões de linhas? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx Como posso monitorar o andamento de uma importação de um arquivo .sql grande? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison Como você mysqldump tabela (s) específica (s)? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas Como posso cronometrar consultas SQL usando psql? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas Como faço para listar todos os bancos de dados e tabelas usando o psql? 2011-02-18 00:45:49 +0800 CST

Hot tag

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve