Sequências Biológicas do UniProt no PostgreSQL

Question

davetapley

Asked: 2012-09-29 14:43:00 +0800 CST2012-09-29 14:43:00 +0800 CST 2012-09-29 14:43:00 +0800 CST

Como devemos tratar as linhas que não serão consultadas quando forem antigas no PostgreSQL?

772

Temos uma tabela em um banco de dados PostgreSQL que cresce na ordem de milhões de linhas por dia.

Cada linha consiste em:

ID
Foreign user ID
Date and time
Other data

A data e a hora não são estritamente monotônicas com ID, mas são próximas.

Ao consultar esta tabela, estamos interessados apenas em obter linhas para um determinado ID de usuário estrangeiro, com data e hora nas últimas duas semanas. Linhas com mais de duas semanas nunca serão consultadas, mas gostaríamos de mantê-las para fins de arquivamento.

Dado este caso de uso especial:

Devemos ter um índice na coluna de data e hora?
Existe alguma dica que podemos dar de que a data e a hora estão (quase) aumentando monotonicamente com o ID.
Devemos tentar remover linhas com mais de duas semanas da tabela, isso provavelmente melhorará o desempenho?

1 respostas

Voted

Craig Ringer · Answer 1 · 2012-09-29T15:38:59+08:00

Particionar e/ou usar índices parciais, para que você tenha apenas um índice para a parte que lhe interessa
Não, AFAIK, ainda não há dicas de correlação na página. Pena.
Depende muito do tipo de consulta, mas pode valer a pena fazer, principalmente se você puder fazer por particionamento.

partição

Este é um uso clássico para particionamento de tabelas. Particione a tabela em duas (ou mais) partes, uma com os dados quentes e outra com os dados de arquivamento antigos. Indexe tudo o que você precisa na mesa quente e use menos índices para economizar espaço e inserttempo na mesa fria.

Com a exclusão de restrição ativada, o Pg verificará automaticamente apenas new_tablequando suas consultas corresponderem à restrição de particionamento.

Se suas consultas não usarem todas a mesma restrição, você poderá adicionar um whereteste que use a restrição ou apenas consultar a new_tablepartição diretamente.

índices parciais

Como alternativa, você pode criar índices parciais que cobrem apenas os intervalos nos quais você está interessado. Novamente, eles só funcionarão se suas consultas usarem restrições que Pg pode reconhecer como correspondentes ao índice parcial. No seu caso, você teria que criá-los e soltá-los ao longo do tempo para manter seu intervalo de tempo relevante, já que você não pode indexar em uma expressão dinâmica como WHERE (some_field > current_timestamp - INTERVAL '2' week).

Como devemos tratar as linhas que não serão consultadas quando forem antigas no PostgreSQL?

partição

índices parciais

Como ver a lista de bancos de dados no Oracle?

Quão grande deve ser o mysql innodb_buffer_pool_size?

Listar todas as colunas de uma tabela especificada

restaurar a tabela do arquivo .frm e .ibd?

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Como selecionar a primeira linha de cada grupo?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

Como devemos tratar as linhas que não serão consultadas quando forem antigas no PostgreSQL?

1 respostas

partição

índices parciais

relate perguntas