Obtendo estatísticas de uma tabela no Oracle

Question

SEarle1986

Asked: 2022-06-02 05:39:40 +0800 CST2022-06-02 05:39:40 +0800 CST 2022-06-02 05:39:40 +0800 CST

Como o SQL estima o número de linhas em um predicado menor que <

772

Tenho feito alguns testes para tentar entender melhor como o SQL Server usa um histograma para estimar o número de linhas que corresponderão a um predicado de igualdade e também a um predicado < ou >

Dado que estou usando o banco de dados OLTP AdventureWorks2016

Se puder entender o processo de estimativa do SQL Server para = e > predicados:

/* update stats with fullscan first */    
UPDATE STATISTICS Production.TransactionHistory WITH FULLSCAN

Então eu posso ver o histograma para a colunaTransactionHistory.Quantity

DBCC SHOW_STATISTICS (
    'Production.TransactionHistory', 
    'Quantity')

A captura de tela abaixo é a extremidade superior do histograma onde executei meus testes:

A consulta a seguir estimará 6 linhas, pois o valor no predicado é um RANGE_HI_KEY, portanto, use o EQ_ROWS para esse bucket:

SELECT  * 
FROM    Production.TransactionHistory
WHERE   Quantity = 2863

O seguinte estimará 1,36 linhas, pois não é um RANGE_HI_KEY, portanto, usa o AVG_RANGE_ROWS para o bucket em que se enquadra:

SELECT  * 
FROM    Production.TransactionHistory
WHERE   Quantity = 2862

A seguinte consulta "maior que" estimará 130 linhas que parecem ser a soma de RANGE_ROWS e EQ_ROWS para todos os buckets com RANGE_HI_KEY > 2863

SELECT  * 
FROM    Production.TransactionHistory
WHERE   Quantity > 2863

Uma consulta semelhante abaixo, mas o valor não é um RANGE_HI_KEY no histograma. SQL Server novamente estima 130 e parece usar o mesmo método acima

SELECT  * 
FROM    Production.TransactionHistory
WHERE   Quantity > 2870

Tudo isso faz sentido até agora, então meu teste mudou para uma consulta "menor que"

SELECT  * 
FROM    Production.TransactionHistory
WHERE   Quantity < 490

para esta consulta, o SQL Server estima 109.579 linhas, mas não consigo descobrir de onde veio isso:

RANGE_HI_KEY + RANGE_ROWS de todos os buckets até e incluindo RANGE_HI_KEY 470 = 109.566, então temos 11 curtos em algum lugar.

Como o SQL Server usa o histograma para estimar o número de linhas que serão retornadas por um predicado "menor que"

1 respostas

Voted

Paul White · Answer 1 · 2022-06-07T04:39:23+08:00

para esta consulta, o SQL Server estima 109.579 linhas , mas não consigo descobrir de onde veio isso:

RANGE_HI_KEY + RANGE_ROWS de todos os buckets até e incluindo RANGE_HI_KEY 470 = 109.566 , então temos 11 curtos em algum lugar.

Você é 13 baixo , não 11: 109.579 - 109.566 = 13.

A ideia geral, como mostrado na minha resposta relacionada , é usar a interpolação linear dentro da etapa parcial, assumindo uniformidade.

No seu caso:

Portanto, a questão é quantos desses 23 RANGE_ROWSesperamos corresponder ao predicado < 490quando eles são distribuídos uniformemente dentro da etapa do histograma com RANGE_HI_KEY500:

DECLARE
    @ARR float = 23e0 / 6e0, -- AVG_RANGE_ROWS
    @DRR float = 6e0,        -- DISTINCT_RANGE_ROWS
    @PR float = 490 - 470,   -- predicate range
    @SR float = 499 - 470    -- whole step range (excluding high key)

SELECT (@DRR - 1) * ((@PR - 1) / @SR) / ((@SR - 1) / @SR) * @ARR;

Este cálculo dá 13,00595 .

Os -1fatores levam em conta o uso <que se supõe excluir uma DISTINCT_RANGE_ROWlinha. Quando <=é usado, assume-se que essa linha corresponde ao predicado.

A coisa toda é uma modificação da aplicação da fração do intervalo que você está pedindo versus o intervalo coberto pela etapa do histograma. Sem excluir o valor não correspondido, seria simplesmente @PR/@SR.

Como o SQL estima o número de linhas em um predicado menor que <

conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

Como fazer a saída do sqlplus aparecer em uma linha?

Selecione qual tem data máxima ou data mais recente

Como faço para listar todos os esquemas no PostgreSQL?

Listar todas as colunas de uma tabela especificada

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

Como o SQL estima o número de linhas em um predicado menor que <

1 respostas

relate perguntas