AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / dba / Perguntas / 84747
Accepted
JGA
JGA
Asked: 2014-12-10 14:21:57 +0800 CST2014-12-10 14:21:57 +0800 CST 2014-12-10 14:21:57 +0800 CST

Estatisticas. Os histogramas de várias colunas são possíveis?

  • 772

Estou pensando em uma situação em que tenho duas colunas com alta densidade, mas essas colunas não são independentes.

Definição

Aqui está a definição da tabela que criei para fins de teste.

CREATE TABLE [dbo].[StatsTest](
    [col1] [int] NOT NULL,  --can take values 1 and 2 only
    [col2] [int] NOT NULL,  --can take integer values from 1 to 4 only
    [col3] [int] NOT NULL,  --integer. it has not relevance just to ensure that each row is different
    [col4]  AS ((10)*[col1]+[col2])  --a computed column ensuring that if two rows have different values in col1 or col2 have different values in col4 
) ON [PRIMARY]

Dados

Os dados para o experimento são os seguintes

col1    col2    col3    col4
1       1       1       11
1       2       2       12
1       2       3       12
1       3       4       13
1       3       5       13
1       3       6       13
1       4       7       14
1       4       8       14
1       4       9       14
1       4       10      14
2       1       11      21
2       1       12      21
2       1       13      21
2       1       14      21
2       2       15      22
2       2       16      22
2       2       17      22
2       3       18      23
2       3       19      23
2       4       20      24

Passo 1: Filtrando por col1

SELECT * FROM StatsTest WHERE col1=1

Como esperado, o Query Optimizer adivinha o número exato de linhas. Número real de linhas = 10 e número estimado de linhas = 10

Passo 2: Filtrando por col2

SELECT * FROM StatsTest WHERE col2=1

Novamente, temos uma estimativa perfeita.

Número real de linhas = 5 e número estimado de linhas = 5

Passo 3: Filtrando por col1 e col2

SELECT * FROM StatsTest WHERE col1=1 AND col2=1

Aqui, a estimativa está longe de estar próxima do número real de linhas. Número real de linhas = 1 e número estimado de linhas = 3,53553

O problema é que o analisador de consulta pressupõe implicitamente que col1 e col2 são independentes, mas não são.

Passo 4: Filtrando por col4

SELECT * FROM StatsTest WHERE col4 = 11

Posso filtrar por col4 = 11 para obter os mesmos resultados da consulta na Etapa 3, porque col4 é uma coluna computada e de acordo com a forma como foi definida col1 = 1 e col2 = 1 é equivalente a col4 = 11 Aqui, porém , como esperado a estimativa é perfeita.

Número real de linhas = 1 e número estimado de linhas = 1

Conclusão/Pergunta

¿Essa solução artificial e deselegante é a única opção disponível para obter estimativas precisas quando se trata de filtragem por duas ou mais colunas não independentes? ¿A coluna calculada e o filtro pela coluna calculada são estritamente necessários para obter a precisão real?

Exemplo em sqlfiddle

sql-server statistics
  • 1 1 respostas
  • 1649 Views

1 respostas

  • Voted
  1. Best Answer
    Paul White
    2014-12-10T14:36:01+08:002014-12-10T14:36:01+08:00

    Os histogramas de várias colunas são possíveis?

    Não verdadeiros histogramas multidimensionais, não.

    Essa solução artificial e deselegante é a única opção disponível para obter estimativas precisas quando se trata de filtragem por duas ou mais colunas não independentes?

    O SQL Server oferece suporte a estatísticas de "várias colunas" , mas elas capturam apenas informações de densidade média (correlação), além de um histograma na primeira coluna nomeada. Eles são úteis apenas para comparações de igualdade.

    As informações de densidade média não capturam nenhum detalhe, portanto, você obterá a mesma seletividade para qualquer par de valores em um objeto estatístico de duas colunas. Em alguns casos, as estatísticas de várias colunas podem ser boas o suficiente e melhores do que nada. As estatísticas de várias colunas são criadas automaticamente em índices de várias colunas.

    Dependendo da versão do SQL Server, você também pode usar índices filtrados e estatísticas filtradas :

    -- Filtered statistics example
    CREATE STATISTICS stats_StatsTest_col2_col1_eq_1
    ON dbo.StatsTest (col2)
    WHERE col1 = 1;
    
    CREATE STATISTICS stats_StatsTest_col2_col1_eq_2
    ON dbo.StatsTest (col2)
    WHERE col1 = 2;
    

    Ou você pode criar uma exibição indexada (que pode oferecer suporte a índices e estatísticas próprias). Visualizações indexadas são o mecanismo por trás da DATE_CORRELATION_OPTIMIZATIONconfiguração do banco de dados , um recurso pouco usado para correlações entre tabelas, mas que se aplica ao espírito da questão.

    A coluna calculada e o filtro pela coluna calculada são estritamente necessários para obter a precisão real?

    Não é o único método. Além das coisas já mencionadas, você também pode especificar a definição textual exata da coluna computada e o otimizador geralmente irá combiná-la com as estatísticas na coluna computada.

    Há também sinalizadores de rastreamento que alteram as suposições feitas sobre correlações de várias colunas. Além disso, a suposição de correlação padrão no SQL Server 2014 (com o novo estimador de cardinalidade habilitado) foi alterada de Independência para Backoff Exponencial (mais detalhes aqui e aqui ). Em última análise, esta é apenas uma suposição diferente. Será melhor em muitos casos e pior em outros.

    A precisão exata na estimativa de cardinalidade nem sempre é necessária para obter um bom plano de execução. Sempre há uma compensação entre gerar um plano que pode ser reutilizado para diferentes valores de parâmetros e um plano ideal para uma execução específica, mas não reutilizado.

    • 16

relate perguntas

  • SQL Server - Como as páginas de dados são armazenadas ao usar um índice clusterizado

  • Preciso de índices separados para cada tipo de consulta ou um índice de várias colunas funcionará?

  • Quando devo usar uma restrição exclusiva em vez de um índice exclusivo?

  • Quais são as principais causas de deadlocks e podem ser evitadas?

  • Como determinar se um Índice é necessário ou necessário

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

    • 12 respostas
  • Marko Smith

    Como fazer a saída do sqlplus aparecer em uma linha?

    • 3 respostas
  • Marko Smith

    Selecione qual tem data máxima ou data mais recente

    • 3 respostas
  • Marko Smith

    Como faço para listar todos os esquemas no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Listar todas as colunas de uma tabela especificada

    • 5 respostas
  • Marko Smith

    Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

    • 4 respostas
  • Marko Smith

    Como você mysqldump tabela (s) específica (s)?

    • 4 respostas
  • Marko Smith

    Listar os privilégios do banco de dados usando o psql

    • 10 respostas
  • Marko Smith

    Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Como faço para listar todos os bancos de dados e tabelas usando o psql?

    • 7 respostas
  • Martin Hope
    Jin conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane Como faço para listar todos os esquemas no PostgreSQL? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh Por que o log de transações continua crescendo ou fica sem espaço? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland Listar todas as colunas de uma tabela especificada 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney O MySQL pode realizar consultas razoavelmente em bilhões de linhas? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx Como posso monitorar o andamento de uma importação de um arquivo .sql grande? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison Como você mysqldump tabela (s) específica (s)? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas Como posso cronometrar consultas SQL usando psql? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas Como faço para listar todos os bancos de dados e tabelas usando o psql? 2011-02-18 00:45:49 +0800 CST

Hot tag

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve