SQL Server - Como as páginas de dados são armazenadas ao usar um índice clusterizado

Question

J. Mini

Asked: 2024-06-23 04:29:18 +0800 CST2024-06-23 04:29:18 +0800 CST 2024-06-23 04:29:18 +0800 CST

Quando um índice columnstore seria inadequado para um ambiente OLAP com tabelas grandes e amplas?

772

Suponha que sua máquina SQL Server 2019 tenha uma consulta que atinja uma tabela baseada em disco que seja longa (digamos 3.000.000 de linhas) e larga (digamos 150 colunas). Suponha que você recupere a maioria das linhas e das colunas. Finalmente, suponha que a tabela seja alterada com pouca frequência. Considere-a uma tabela típica de servidor de relatórios que é atualizada apenas uma vez por dia.

Há alguma circunstância em que as condições acima se aplicam e um índice rowstore tradicional seria preferível a um índice columnstore, clusterizado ou não?

Preocupo-me por ter sido vendido com muita facilidade em índices columnstore e começarei a usá-los em todas as minhas tabelas grandes e largas.

2 respostas

Voted

J.D. · Answer 1 · 2024-06-23T06:23:43+08:00

Suponha que você recupere a maioria das linhas e das colunas.

Há alguma circunstância em que as condições acima se aplicam e um índice rowstore tradicional seria preferível a um índice columnstore, clusterizado ou não?

Os índices em geral não ajudam muito se você estiver selecionando a tabela inteira (ou perto dela, nas suas palavras acima), especialmente se você estiver selecionando as colunas conforme elas são armazenadas e não fazendo nenhum tipo de agregação , cálculos ou manipulações com eles.

Como você mencionou especificamente que este é um contexto OLAP, se você estiver fazendo algum tipo de agregação, um índice columnstore poderá beneficiá-lo pelo menos com a execução em modo lote :

A execução em modo lote é um método de processamento de consulta usado para processar várias linhas juntas. A execução em modo de lote está intimamente integrada e otimizada em torno do formato de armazenamento columnstore. A execução em modo lote às vezes é conhecida como execução baseada em vetor ou vetorizada. As consultas em índices columnstore usam a execução em modo lote, o que melhora o desempenho da consulta normalmente de duas a quatro vezes.

E, novamente, dado que a maioria das colunas será selecionada em suas consultas, você provavelmente desejaria agrupar seu índice columnstore. Dessa forma, a tabela original é mantida junta no columnstore, em vez de uma cópia dela ser mantida em um índice separado.

J. Mini · Answer 2 · 2024-06-23T07:41:20+08:00

Consegui encontrar um caso em que o índice rowstore vence: quando você se preocupa com a exclusividade. Muitos tipos de junção, mas principalmente as junções de mesclagem, tornam-se muito mais rápidas quando sabem que ambos os lados das junções têm valores exclusivos. Um índice rowstore pode fornecer esse conhecimento com chaves primárias/exclusivas, mas os índices columnstore não podem oferecer isso.

Nos casos em que você tem um índice rowstore e um índice columnstore, acho que o otimizador geralmente escolherá o índice columnstore em vez do rowstore. Presumivelmente, ele estima corretamente que o índice columnstore será muito mais barato para verificar, mas conclui erroneamente que isso economizará mais esforço do que usar a exclusividade do índice rowstore.

Também há algo relevante sobre correspondências de hash, mas não tenho certeza do quê. Acho que uma junção de hash com um índice rowstore fará com que o predicado seja transmitido para a varredura do índice, mas uma junção de hash com um índice columnstore fará com que o filtro seja um operador explícito no plano de execução. Este último é muito mais lento.

Quando um índice columnstore seria inadequado para um ambiente OLAP com tabelas grandes e amplas?

conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

Como fazer a saída do sqlplus aparecer em uma linha?

Selecione qual tem data máxima ou data mais recente

Como faço para listar todos os esquemas no PostgreSQL?

Listar todas as colunas de uma tabela especificada

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

Quando um índice columnstore seria inadequado para um ambiente OLAP com tabelas grandes e amplas?

2 respostas

relate perguntas