Obtendo estatísticas de uma tabela no Oracle

Question

SEarle1986

Asked: 2022-06-01 02:16:34 +0800 CST2022-06-01 02:16:34 +0800 CST 2022-06-01 02:16:34 +0800 CST

Por que o SQL Server não tem 200 buckets no histograma de estatísticas quando há mais de 100k valores distintos na tabela

772

Dado que estou usando o banco de dados OLTP AdventureWorks2016 , por que o histograma de estatísticas para o índice PK_TransactionHistory_TransactionIDna tabela Production.TransactionHistorycontém apenas 3 "buckets" de histograma quando há 113k valores distintos nessa coluna?

Um exemplo abaixo:

USE AdventureWorks2016

/* ensure statistics are as accurate as they can be */
UPDATE STATISTICS Production.TransactionHistory WITH FULLSCAN

então podemos olhar para o histograma atualizado

/* look at the statistics for the primary key column */
DBCC SHOW_STATISTICS (
    'Production.TransactionHistory', 
    'PK_TransactionHistory_TransactionID')
WITH HISTOGRAM;

e vejo a saída:

Observe os IDs de transação máximo e mínimo:

SELECT MIN(TransactionID) FROM Production.TransactionHistory /* 100000 */
SELECT MAX(TransactionID) FROM Production.TransactionHistory /* 213442 */

O SQL Server parece ter criado um "bucket" para o valor máximo, um para o valor mínimo e um para todos os valores intermediários (que ele sabe que são todos distintos)

Observo que se eu remover a chave primária desta tabela

ALTER TABLE Production.TransactionHistory DROP CONSTRAINT PK_TransactionHistory_TransactionID

e, em seguida, insira alguns valores duplicados

INSERT INTO [Production].[TransactionHistory]
(
    TransactionID,
    [ProductID],
    [ReferenceOrderID],
    [ReferenceOrderLineID],
    [TransactionDate],
    [TransactionType],
    [Quantity],
    [ActualCost],
    [ModifiedDate]
)
VALUES
(200001,1,1,1,GETDATE(),'P',1,1,GETDATE()),
(200011,1,1,1,GETDATE(),'P',1,1,GETDATE()),
(200021,1,1,1,GETDATE(),'P',1,1,GETDATE()),
(200031,1,1,1,GETDATE(),'P',1,1,GETDATE())

Atualize as estatísticas na tabela e, em seguida, observe a estatística da coluna (em vez do PK que excluímos)

USE AdventureWorks2016

/* ensure statistics are as accurate as they can be */
UPDATE STATISTICS Production.TransactionHistory WITH FULLSCAN

/* look at the statistics for the primary key column */
DBCC SHOW_STATISTICS (
    'Production.TransactionHistory', 
    'TransactionID')
WITH HISTOGRAM;

Ainda temos dois buckets, embora DISTINCT_RANGE_ROWS tenha sido atualizado de acordo

Por que o SQL Server não faz uso dos 200 "buckets" disponíveis em um histograma aqui? É algo a ver com os recursos necessários para preencher a página de estatísticas de 8 KB e usar todos os 200 buckets significaria que pode ser necessário redefinir quando novos dados são adicionados à tabela?

1 respostas

Voted

sqL_handLe · Answer 1 · 2022-06-01T06:41:22+08:00

O histograma neste caso é quase indistinguível de antes de inserir os 4 valores duplicados. Naquela época, a série única e sequencial podia ser completamente descrita em três etapas.

A diferença teria sido linhas de intervalo = 113441 em vez de 113445, linhas de intervalo distintas ainda = 113441 e linhas de intervalo médio = 1 em vez de 1,000035.

Então. Não seria melhor capturar as quatro duplicatas no que pode ser um histograma de slot de até 200 mais NULL?

Não, não necessariamente.

Por quê? Porque as estatísticas do otimizador não são apenas para o momento. As estatísticas do otimizador são válidas até a próxima vez que as estatísticas do otimizador forem atualizadas. Como há mais de 25.000 linhas, o limite de estatísticas automáticas padrão no SQL Server 2016 e em diante é SQRT(1000 * linhas). Nesse caso, o limite é COLMODCTR > 10651,06. Portanto, não há atualização automática até pelo menos 10652 modificações no TransactionId, que já vimos duplicadas. Que valor geral pode indicar 4 duplicatas entre uma série sequencial única que ainda estaria presente dado o próximo limite de estatísticas de atualização automática de 106652 modificações - que podem ser exclusões criando furos na série, duplicatas de alguns ou muitos valores ou um intervalo de números sequenciais únicos começando com anterior max + 1?

As estatísticas do otimizador, como todo o trabalho feito pelo otimizador, não são para alcançar o melhor caso para todas as circunstâncias, independentemente do esforço ou do tempo. Em vez disso, para fornecer um resultado "bom o suficiente", dado o esforço e o tempo, levando em consideração as limitações de modelagem na estimativa de cardinalidade e outros trabalhos do otimizador.

Essa é uma razão pela qual a modelagem de esquema informada por consulta com restrições, índices e estatísticas sempre será importante. Também uma razão pela qual a modelagem de consulta informada pelo esquema, incluindo o formato de código T-SQL e dicas, sempre será importante :-)

Por que o SQL Server não tem 200 buckets no histograma de estatísticas quando há mais de 100k valores distintos na tabela

conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

Como fazer a saída do sqlplus aparecer em uma linha?

Selecione qual tem data máxima ou data mais recente

Como faço para listar todos os esquemas no PostgreSQL?

Listar todas as colunas de uma tabela especificada

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

Por que o SQL Server não tem 200 buckets no histograma de estatísticas quando há mais de 100k valores distintos na tabela

1 respostas

relate perguntas