Sequências Biológicas do UniProt no PostgreSQL

Question

TmTron

Asked: 2019-10-28 23:17:25 +0800 CST2019-10-28 23:17:25 +0800 CST 2019-10-28 23:17:25 +0800 CST

Por que log(greatest()) é tão lento?

772

Temos algumas consultas complexas que foram muito lentas. Consegui reduzir a consulta a uma simples reprodução. Parece que a combinação de greateste logé a causa, mas não entendo o porquê.

Aqui está um exemplo completo do sql-fiddle para executar as consultas - e você também pode View the execution Plansdas consultas (pressione o link na parte inferior do resultado da consulta na página do sql-fiddle)

Então aqui está a consulta lenta :

select count(value)
from (
         SELECT  log(greatest(1e-9, x)) as value
         from (select generate_series(1, 20000, 1) as x) as d
     ) t;

Nós apenas geramos uma série de 20k números e usamos log(greatest()). Essa consulta leva cerca de 1,5 segundos.

Achei que calcular o log pode demorar, mas a consulta a seguir também é rápida ( ~5ms ):

select count(value)
from (
         SELECT  log(x) as value
         from (select generate_series(1, 20000, 1) as x) as d
     ) t;

Apenas como teste eu troquei greateste log- isso também é rápido ( ~5ms ):

select count(value)
from (
         SELECT  greatest(1e-9, log(x)) as value
         from (select generate_series(1, 20000, 1) as x) as d
     ) t;

O QUERY PLANSpara todas as 3 consultas são os mesmos:

Aggregate (cost=22.51..22.52 rows=1 width=8)
-> Result (cost=0.00..5.01 rows=1000 width=4)

Alguém pode explicar por que a primeira consulta é tão lenta - e talvez alguém conheça uma solução alternativa?

Mais detalhes

plataformas lentas

Eu recebo resultados semelhantes em todos eles (a primeira consulta é uma magnitude mais lenta):

SQL Fiddle usa página 9.6
meu PC local com resultados semelhantes: Win10 64bit, pg 11.5 rodando no Docker
servidor remoto: Ubuntu 18.04 64 bits executando pg 11.5 no Docker
rextester. com
- consulta lenta ~ 3 segundos
- consulta rápida ~ 0,5 segundos

contar

Quando mudo count(value)para count(*)ou count(1)(número um) a consulta é rápida

mas isso não me ajuda porque a consulta de produção nem inclui uma contagem
de qualquer forma, eu me pergunto por que há uma diferença neste caso (não há valores nulos nos dados)

1 respostas

Voted

Daniel Vérité · Answer 1 · 2019-10-29T01:21:25+08:00

Você está invocando duas funções de log diferentes aqui: log(numeric,numeric)e log(double precision), e a primeira é muito mais lenta que a segunda.

Observe como a chamada das funções difere no EXPLAIN (ANALYZE, VERBOSE) abaixo, executado com PostgreSQL 11.5 (Linux Ubuntu):

Versão lenta:

explain (analyze, verbose) select count(value)
from (
         SELECT  log(greatest(1e-9, x)) as value
         from (select generate_series(1, 20000, 1) as x) as d
     ) t;
                                              QUERY PLAN                                               
-------------------------------------------------------------------------------------------------------
 Aggregate  (cost=25.02..25.03 rows=1 width=8) (actual time=1174.349..1174.349 rows=1 loops=1)
   Output: count(log('10'::numeric, GREATEST(0.000000001, ((generate_series(1, 20000, 1)))::numeric)))
   ->  ProjectSet  (cost=0.00..5.02 rows=1000 width=4) (actual time=0.004..1.310 rows=20000 loops=1)
         Output: generate_series(1, 20000, 1)
         ->  Result  (cost=0.00..0.01 rows=1 width=0) (actual time=0.001..0.001 rows=1 loops=1)
 Planning Time: 0.123 ms
 Execution Time: 1174.385 ms

Versão rápida:

explain (analyze, verbose) select count(value)
from (
         SELECT  log(greatest(1e-9::float, x)) as value
         from (select generate_series(1, 20000, 1) as x) as d
     ) t;
                                                  QUERY PLAN                                                   
---------------------------------------------------------------------------------------------------------------
 Aggregate  (cost=25.02..25.03 rows=1 width=8) (actual time=6.693..6.693 rows=1 loops=1)
   Output: count(log(GREATEST('1e-09'::double precision, ((generate_series(1, 20000, 1)))::double precision)))
   ->  ProjectSet  (cost=0.00..5.02 rows=1000 width=4) (actual time=0.004..2.561 rows=20000 loops=1)
         Output: generate_series(1, 20000, 1)
         ->  Result  (cost=0.00..0.01 rows=1 width=0) (actual time=0.001..0.001 rows=1 loops=1)
 Planning Time: 0.096 ms
 Execution Time: 6.731 ms

greatest()não é responsável: considerando a consulta com just log(x), se você converter xpara numericela será tão lento com ou sem greatest().

Por que log(greatest()) é tão lento?

Mais detalhes

plataformas lentas

contar

conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

Como fazer a saída do sqlplus aparecer em uma linha?

Selecione qual tem data máxima ou data mais recente

Como faço para listar todos os esquemas no PostgreSQL?

Listar todas as colunas de uma tabela especificada

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

Por que log(greatest()) é tão lento?

Mais detalhes

plataformas lentas

contar

1 respostas

relate perguntas