AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / dba / Perguntas / 311006
Accepted
AndreKR
AndreKR
Asked: 2022-04-16 09:19:54 +0800 CST2022-04-16 09:19:54 +0800 CST 2022-04-16 09:19:54 +0800 CST

Preciso de estatísticas além de um índice?

  • 772

Suponha que eu tenha uma tabela com imagens que devem passar por várias etapas:

CREATE TABLE images (filename text, extracted bool, cropped bool, resized bool);
    
INSERT INTO images (filename, extracted, cropped, resized)
VALUES
    ('foo', false, false, false),
    ('bar', true, false, false),
    ('baz', true, true, false),
    ('qux', true, true, true);

Em algum momento, tenho uma consulta para encontrar todas as imagens cortadas, mas que ainda precisam ser redimensionadas:

SELECT count(*) FROM images WHERE cropped AND NOT resized;

Agora acredito que a melhor maneira de tornar essa consulta rápida é um índice parcial:

CREATE INDEX ON images (cropped, resized) WHERE (cropped AND NOT resized);

Eu o tornaria parcial porque cropped AND NOT resizedé um estado relativamente raro, embora possa haver milhões de imagens que já estão totalmente processadas e também milhões que ainda não foram cortadas.

Minha pergunta agora é, preciso de estatísticas além do índice?

Um desses?

CREATE STATISTICS stat1 (dependencies) ON cropped, resized FROM images;
CREATE STATISTICS stat2 (ndistinct) ON cropped, resized FROM images;
CREATE STATISTICS stat3 (mcv) ON cropped, resized FROM images;
ANALYZE images;

Encontrei o capítulo Como o planejador usa estatísticas que eu havia perdido anteriormente (ou melhor, misturado com Estatísticas usadas pelo planejador ), mas ele fala apenas sobre como as estatísticas são transformadas em estimativas de linha. O que não está claro para mim é como os índices são escolhidos, uma vez que aparentemente não há estatísticas sobre os índices.

postgresql statistics
  • 3 3 respostas
  • 68 Views

3 respostas

  • Voted
  1. jjanes
    2022-04-17T11:41:57+08:002022-04-17T11:41:57+08:00

    Você está substancialmente pensando demais nisso. Sua consulta é muito simples e há apenas algumas maneiras de executá-la. Se ele retornará 7.000 linhas ou 2.000 linhas, não importa, porque de qualquer forma o índice parecerá melhor do que as poucas alternativas.

    Se você realmente deseja executar uma variedade maior de consultas que tenham mais oportunidades de fazer a escolha errada do planejador, pode ser importante incluir as estatísticas estendidas da variedade mcv.

    Seus dois exemplos são totalmente incompatíveis. A tabela de contagens em sua pergunta levaria a estimativas de linha muito diferentes das mostradas em sua resposta. Daria cerca de 5.000.000 sem estatísticas MCV estendidas e cerca de 1 com as estatísticas estendidas. Certamente não 6872 vs 1782.

    • 1
  2. Best Answer
    AndreKR
    2022-04-16T17:02:56+08:002022-04-16T17:02:56+08:00

    Meus experimentos mostraram que atualmente não pareço precisar dessas estatísticas para que o índice seja usado , mas ainda não estava claro por que isso. Depois de um mergulho na fonte, acho que posso responder à minha própria pergunta.

    Essencialmente, a decisão de usar um índice é feita btcostestimate()por sua vez genericcostestimate().

    Isso ajuda a lembrar quais tipos de estatísticas estão disponíveis para cada tabela:

    • Número de tuplas
    • Para cada coluna: Número de valores distintos (às vezes chamado de "cardinalidade")
    • Para cada coluna: os valores mais comuns
    • Para cada coluna: um histograma dos valores restantes (menos comuns)
    • Se configurado: dependenciesstats ("Quantos valores na Coluna A têm apenas um único valor aparece na coluna B.")
    • Se configurado: ndistinctestatísticas (Número de combinações de valores únicos nas colunas A e B.)
    • Se configurado: mcvestatísticas (combinações de valores mais comuns nas colunas A e B.)

    Para cada índice, o Postgres determina quais condições podem ser verificadas usando o índice (o "Index Conds" ou "indexQuals"). Com base neles, genericcostestimate()(usando clauselist_selectivity()) calcula uma seletividade para o índice, levando em consideração essas estatísticas estendidas. Na verdade, isso se refletiu em meus experimentos, pois obtive melhores estimativas de linha com estatísticas estendidas do mcvtipo:

    captura de tela
    captura de tela
    A diferença no tempo real está no cache.

    O predicado do índice parcial também seria levado em consideração, mas somente se introduzir restrições adicionais, portanto, não é relevante aqui.

    Então o que eu acho que o índice foi escolhido é o seguinte: Primeiro o predicado do índice foi verificado para ver se o índice é mesmo utilizável. Em seguida, foi calculada uma seletividade para as condições particulares, que sem as estatísticas estendidas estariam de fato um pouco erradas. Mas, mais abaixo, quando o custo real é calculado, é tão baixo porque o índice é tão pequeno que, mesmo com a estimativa de linha errada, o custo é muito baixo.

    Portanto, a resposta é sim, teoricamente estatísticas estendidas ainda são necessárias para boas estimativas de linha , mas também não , o índice ainda é escolhido sem estatísticas estendidas porque é muito pequeno.

    • 0
  3. CEA
    2022-04-16T13:33:37+08:002022-04-16T13:33:37+08:00

    sua consulta não filtra suficientemente a tabela. então o otimizador de consulta postgres não usa esse índice e escolhe a varredura de tabela sequencial (ou varredura completa de tabela ).

    Você pode alterar o design da tabela e o design da consulta. Ou você deve concordar com a varredura sequencial.

    • -3

relate perguntas

  • Posso ativar o PITR depois que o banco de dados foi usado

  • Práticas recomendadas para executar a replicação atrasada do deslocamento de tempo

  • Os procedimentos armazenados impedem a injeção de SQL?

  • Sequências Biológicas do UniProt no PostgreSQL

  • Qual é a diferença entre a replicação do PostgreSQL 9.0 e o Slony-I?

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

    • 12 respostas
  • Marko Smith

    Como fazer a saída do sqlplus aparecer em uma linha?

    • 3 respostas
  • Marko Smith

    Selecione qual tem data máxima ou data mais recente

    • 3 respostas
  • Marko Smith

    Como faço para listar todos os esquemas no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Listar todas as colunas de uma tabela especificada

    • 5 respostas
  • Marko Smith

    Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

    • 4 respostas
  • Marko Smith

    Como você mysqldump tabela (s) específica (s)?

    • 4 respostas
  • Marko Smith

    Listar os privilégios do banco de dados usando o psql

    • 10 respostas
  • Marko Smith

    Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Como faço para listar todos os bancos de dados e tabelas usando o psql?

    • 7 respostas
  • Martin Hope
    Jin conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane Como faço para listar todos os esquemas no PostgreSQL? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh Por que o log de transações continua crescendo ou fica sem espaço? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland Listar todas as colunas de uma tabela especificada 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney O MySQL pode realizar consultas razoavelmente em bilhões de linhas? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx Como posso monitorar o andamento de uma importação de um arquivo .sql grande? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison Como você mysqldump tabela (s) específica (s)? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas Como posso cronometrar consultas SQL usando psql? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas Como faço para listar todos os bancos de dados e tabelas usando o psql? 2011-02-18 00:45:49 +0800 CST

Hot tag

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve