Sequências Biológicas do UniProt no PostgreSQL

Question

Petr Praus

Asked: 2012-10-31 07:57:44 +0800 CST2012-10-31 07:57:44 +0800 CST 2012-10-31 07:57:44 +0800 CST

Aumentar work_mem e shared_buffers no Postgres 9.2 diminui significativamente as consultas

772

Eu tenho uma instância do PostgreSQL 9.2 em execução no RHEL 6.3, máquina de 8 núcleos com 16 GB de RAM. O servidor é dedicado a este banco de dados. Dado que o postgresql.conf padrão é bastante conservador em relação às configurações de memória, achei que seria uma boa idéia permitir que o Postgres usasse mais memória. Para minha surpresa, seguir o conselho em wiki.postgresql.org/wiki/Tuning_Your_PostgreSQL_Server diminuiu significativamente praticamente todas as consultas que eu executo, mas é obviamente mais perceptível nas consultas mais complexas.

Eu também tentei executar o pgtune que deu a seguinte recomendação com mais parâmetros ajustados, mas isso não mudou nada. Ele sugere shared_buffers de 1/4 do tamanho da RAM, o que parece estar de acordo com os conselhos de outros lugares (e no PG wiki em particular).

default_statistics_target = 50
maintenance_work_mem = 960MB
constraint_exclusion = on
checkpoint_completion_target = 0.9
effective_cache_size = 11GB
work_mem = 96MB
wal_buffers = 8MB
checkpoint_segments = 16
shared_buffers = 3840MB
max_connections = 80

Tentei reindexar todo o banco de dados depois de alterar as configurações (usando reindex database), mas isso também não ajudou. Eu brinquei com shared_buffers e work_mem. Mudá-los gradualmente dos valores padrão muito conservadores (128k / 1 MB) diminuiu gradualmente o desempenho.

Executei EXPLAIN (ANALYZE,BUFFERS)algumas consultas e o culpado parece ser que o Hash Join é significativamente mais lento. Não está claro para mim o porquê.

Para dar um exemplo específico, tenho a seguinte consulta. Ele é executado em ~2100ms na configuração padrão e ~3300ms na configuração com tamanhos de buffer aumentados:

select count(*) from contest c
left outer join contestparticipant cp on c.id=cp.contestId
left outer join teammember tm on tm.contestparticipantid=cp.id
left outer join staffmember sm on cp.id=sm.contestparticipantid
left outer join person p on p.id=cp.personid
left outer join personinfo pi on pi.id=cp.personinfoid
where pi.lastname like '%b%' or pi.firstname like '%a%';

EXPLAIN (ANALYZE,BUFFERS)para a consulta acima:

Buffers padrão: http://explain.depesz.com/s/xaHJ
Buffers maiores: http://explain.depesz.com/s/Plk

A questão é por que estou observando um desempenho reduzido quando aumento os tamanhos de buffer? A máquina definitivamente não está ficando sem memória. Alocação se a memória compartilhada no SO for ( shmmaxe shmall) estiver configurada para valores muito grandes, isso não deve ser um problema. Também não estou recebendo nenhum erro no log do Postgres. Estou executando o autovacuum na configuração padrão, mas não espero que tenha algo a ver com isso. Todas as consultas foram executadas na mesma máquina com poucos segundos de intervalo, apenas com configuração alterada (e PG reiniciado).

Edit: Acabei de encontrar um fato particularmente interessante: quando executo o mesmo teste no meu iMac de meados de 2010 (OSX 10.7.5) também com Postgres 9.2.1 e 16 GB de RAM, não sinto a lentidão. Especificamente:

set work_mem='1MB';
select ...; // running time is ~1800 ms
set work_mem='96MB';
select ...' // running time is ~1500 ms

Quando faço exatamente a mesma consulta (aquela acima) com exatamente os mesmos dados no servidor, recebo 2100 ms com work_mem=1MB e 3200 ms com 96 MB.

O Mac tem SSD, então é compreensivelmente mais rápido, mas exibe um comportamento que eu esperaria.

Veja também a discussão de acompanhamento sobre pgsql-performance .

2 respostas

Voted

Chris Travers · Answer 1 · 2013-01-28T07:23:52+08:00

Em primeiro lugar, lembre-se de que work_mem é por operação e, portanto, pode ficar excessivo rapidamente. Em geral, se você não está tendo problemas com a lentidão das classificações, eu deixaria o work_mem em paz até que você precise.

Observando seus planos de consulta, uma coisa que me impressiona é que os acertos de buffer são muito diferentes olhando para os dois planos, e que mesmo as varreduras sequenciais são mais lentas. Suspeito que o problema tenha a ver com o cache de leitura antecipada e com menos espaço para isso. O que isso significa é que você está polarizando a memória para reutilização de índices e contra a leitura de tabelas no disco.

Meu entendimento é que o PostgreSQL procurará no cache por uma página antes de lê-la do disco porque não sabe realmente se o cache do SO conterá essa página. Como as páginas permanecem no cache e porque esse cache é mais lento que o cache do sistema operacional, isso altera os tipos de consultas que são rápidas versus as que são lentas. De fato, lendo os planos, além dos problemas de work_mem, parece que todas as informações da sua consulta vêm do cache, mas é uma questão de qual cache.

work_mem : quanta memória podemos alocar para uma operação de classificação ou junção relacionada. Isso é por operação, não por instrução ou por back-end, portanto, uma única consulta complexa pode usar muitas vezes essa quantidade de memória. Não está claro que você está atingindo esse limite, mas vale a pena notar e estar ciente. se você aumentar demais, perderá memória que pode estar disponível para o cache de leitura e os buffers compartilhados.

shared_buffers : quanta memória alocar para a fila de páginas real do PostgreSQL. Agora, idealmente, o conjunto interessante do seu banco de dados ficará na memória armazenada em cache aqui e nos buffers de leitura. No entanto, o que isso faz é garantir que as informações usadas com mais frequência em todos os back-ends sejam armazenadas em cache e não liberadas no disco. No Linux, esse cache é significativamente mais lento do que o cache de disco do SO, mas oferece garantias de que o cache de disco do SO não é e é transparente para o PostgreSQL. Este é claramente onde está o seu problema.

Então, o que acontece é que quando temos uma requisição, verificamos primeiro os buffers compartilhados, pois o PostgreSQL tem profundo conhecimento desse cache, e procuramos as páginas. Se eles não estiverem lá, pedimos ao sistema operacional para abri-los a partir do arquivo, e se o sistema operacional tiver armazenado em cache o resultado, ele retornará a cópia em cache (isso é mais rápido que os buffers compartilhados, mas o Pg não pode dizer se está armazenado em cache ou em disk, e disk é muito mais lento, então o PostgreSQL normalmente não vai correr esse risco). Lembre-se de que isso também afeta o acesso à página aleatório versus sequencial. Assim, você pode obter um melhor desempenho com configurações de shared_buffers mais baixas.

Minha intuição é que você provavelmente terá um desempenho melhor, ou pelo menos mais consistente, em ambientes de alta simultaneidade com configurações maiores de shared_buffer. Lembre-se também de que o PostgreSQL pega essa memória e a mantém, portanto, se você tiver outras coisas em execução no sistema, os buffers de leitura conterão arquivos lidos por outros processos. É um tema muito grande e complexo. Configurações maiores de buffer compartilhado fornecem melhores garantias de desempenho, mas podem oferecer menos desempenho em alguns casos.

Erwin Brandstetter · Answer 2 · 2013-01-28T14:42:24+08:00

Além do efeito aparentemente paradoxal de que aumentar work_memdiminui o desempenho ( @Chris pode ter uma explicação), você pode melhorar sua função de pelo menos duas maneiras.

Reescreva dois falsos LEFT JOINcom JOIN. Isso pode confundir o planejador de consultas e levar a planos inferiores.

SELECT count(*) AS ct
FROM   contest            c
JOIN   contestparticipant cp ON cp.contestId = c.id
JOIN   personinfo         pi ON pi.id = cp.personinfoid
LEFT   JOIN teammember    tm ON tm.contestparticipantid = cp.id
LEFT   JOIN staffmember   sm ON sm.contestparticipantid = cp.id
LEFT   JOIN person        p  ON p.id = cp.personid
WHERE (pi.firstname LIKE '%a%'
OR     pi.lastname  LIKE '%b%')

Supondo que seus padrões de pesquisa reais sejam mais seletivos, use índices de trigramas em pi.firstnamee pi.lastnamepara dar suporte a pesquisas não ancoradas LIKE. (Padrões mais curtos como '%a%'também são suportados, mas um índice provavelmente não ajudará para predicados não seletivos.):

CREATE INDEX personinfo_firstname_gin_idx ON personinfo USING gin (firstname gin_trgm_ops);
CREATE INDEX personinfo_lastname_gin_idx  ON personinfo USING gin (lastname gin_trgm_ops);

Ou um índice de várias colunas:

CREATE INDEX personinfo_name_gin_idx ON personinfo USING gin (firstname gin_trgm_ops, lastname gin_trgm_ops);

Deve tornar sua consulta um pouco mais rápida. Você precisa instalar o módulo adicional pg_trgm para isso. Detalhes nestas perguntas relacionadas:

Além disso, você tentou definir work_mem localmente - apenas para a transação atual ?

SET LOCAL work_mem = '96MB';

Isso evita que transações simultâneas também consumam mais RAM, possivelmente deixando umas às outras de fome.

Aumentar work_mem e shared_buffers no Postgres 9.2 diminui significativamente as consultas

Como ver a lista de bancos de dados no Oracle?

Quão grande deve ser o mysql innodb_buffer_pool_size?

Listar todas as colunas de uma tabela especificada

restaurar a tabela do arquivo .frm e .ibd?

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Como selecionar a primeira linha de cada grupo?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

Aumentar work_mem e shared_buffers no Postgres 9.2 diminui significativamente as consultas

2 respostas

relate perguntas