Quanto "Padding" coloco em meus índices?

Question

dcc310

Asked: 2020-11-30 09:11:17 +0800 CST2020-11-30 09:11:17 +0800 CST 2020-11-30 09:11:17 +0800 CST

O Postgresql pode explorar o clustering "acidental" em planos?

772

Suponha que eu tenha uma tabela somente de acréscimo com colunas customer_id(string gerada aleatoriamente) e x, e as pesquisas são sempre feitas em customer_id.

Digamos que os dados se pareçam abaixo, como se tivéssemos um lote de linhas quando um cliente se inscreve para algo inicialmente e nunca mais para esse cliente.

customer_id=XCVFY0001, x=...
customer_id=XCVFY0001, x=...
(continues for ~1 page with same customer_id)
customer_id=HUMBN0001, x=...
customer_id=HUMBN0001, x=...
(continues for ~1 page with same customer_id)
(and so on...)

Portanto, embora customer_ida ordem alfabética de 's não esteja correlacionada com as linhas físicas, podemos fazer declarações como:

há poucos IDs de cliente distintos por página
há poucas páginas por ID
há longas "execuções" de IDs ou, se você precisar de um customer_id, provavelmente o encontrará em algumas páginas contíguas
em termos de teoria da informação, acho que eles diriam que não há correlação, mas há uma alta "informação mútua"

O planejador de consultas pode usar informações como essa em estimativas, se uma não for executada explicitamente CLUSTER? Eu suponho que, se houver baixo correlationconforme relatado em pg_stats, ele adivinharia que as linhas são distribuídas uniformemente pelas páginas e podem ser pessimistas com vários planos.

(No meu análogo do mundo real, um índice simples e não clusterizado tornou as coisas boas e rápidas de qualquer maneira, mas fiquei curioso quando notei o padrão nos dados.)

1 respostas

Voted

jjanes · Answer 1 · 2020-11-30T19:34:07+08:00

Best Answer

jjanes

2020-11-30T19:34:07+08:002020-11-30T19:34:07+08:00

O planejador desconhece esse tipo de agrupamento e, portanto, não pode tomar decisões com base nele.

O método de amostragem em duas etapas usado pelo ANALYZE pode gerar amostras distorcidas nesta situação, possivelmente levando a uma subestimação drástica de n_distinct. É difícil prever quais podem ser as consequências disso sem investigar os detalhes de consultas individuais.

1

O Postgresql pode explorar o clustering "acidental" em planos?

conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

Como fazer a saída do sqlplus aparecer em uma linha?

Selecione qual tem data máxima ou data mais recente

Como faço para listar todos os esquemas no PostgreSQL?

Listar todas as colunas de uma tabela especificada

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

O Postgresql pode explorar o clustering "acidental" em planos?

1 respostas

relate perguntas