Preciso de índices separados para cada tipo de consulta ou um índice de várias colunas funcionará?

Question

Oleg Dok

Asked: 2012-01-10 00:52:14 +0800 CST2012-01-10 00:52:14 +0800 CST 2012-01-10 00:52:14 +0800 CST

SQL Server: conselho de chaves primárias para meu whitepaper necessário

772

Estou cansado de explicar a cada novo desenvolvedor júnior em nossa equipe de P&D por que ele deve usar chaves primárias e como fazer isso. Então decidi escrever um pequeno whitepaper, que todo novo desenvolvedor deveria ler. Aqui está o rascunho dele.

AVISO LEGAL:

Eu sei e entendo a diferença entre índice clusterizado e chave primária
Na pergunta a seguir PRIMARY KEY significa PRIMARY KEY CLUSTERED, e SEM PRIMARY KEY significa SEM PK E CLUSTERED INDEX
Observe que é um whitepaper para programadores juniores e não SQL
Todas as coisas que eles fazem - revisadas antes de entrar no ramo principal de desenvolvimento
Não vou explicar a eles - quando haverá benefício em usar o índice clusterizado e a chave primária NÃO clusterizada - caso contrário, cairei no inferno das otimizações prematuras

A questão é - o que mais devo adicionar ao documento? Pode ser - o que devo mudar nele? E o que explicar mais detalhadamente?

Aqui vem o rascunho:

As chaves primárias precisam restringir qualquer tabela no banco de dados.
Sem PK, uma tabela considerada como um heap e o SQL Server tem usos muito limitados desse tipo de dados - a única coisa que devo dizer que é adequada - um buffer para carregamento rápido de dados em massa de fora do mecanismo do SQL Server.
Evite usar chaves primárias naturais. Principalmente por causa de suas distribuições naturais (gauss). Por exemplo, na tabela PhoneBook com chave primária baseada em Família e Nome haverá muitos Smiths e Wilsons e muito menos Zimmerbergs e isso indica que páginas contendo Smiths e Wilsons serão divididas com mais frequência do que outras páginas e consultadas também com mais frequência - o que multiplica o impacto no desempenho. Isso leva à degradação do desempenho, devido ao preenchimento da página da chave primária e a maioria das pesquisas atingirá as páginas esparsas do PK.

Além disso, mesmo usando SSN ou ID Number, que têm (espero) distribuição plana, como PK não resolve o problema de divisão de página do PK, porque esses números não estão em nenhuma ordem organizada.

Secundário - PKs naturais são frequentemente compostos. Isso cria chaves estrangeiras compostas e índices amplos e, como resultado, prejudica o desempenho. Então, ...
Evite usar PKs compostos. Melhor usar PK substituto simples e índice UNIQUE composto, do que PK composto completo, porque leva a FK composto e índices amplos devido à declaração de que todo índice secundário na tabela com PK deve incluir PK inteiro.
Evite usar chaves primárias substitutas diferentes dos tipos inteiro ou identificador único
Durante a fase de projeto do banco de dados, é muito importante identificar as entidades e tabelas correspondentes que podem ter em perspectiva "zilhões" de linhas, ou tabelas cujas chaves devem ser NÃO APENAS únicas em toda a tabela, mas únicas no banco de dados ou mesmo no mundo, ou que devem ser unido a outras tabelas por esta chave em várias tabelas de salto - é melhor esta tabela ter UUID PK, outras - inteiro comum, porque o SQL Server está muito bem ajustado para usar PKs inteiros.
Esses dois tipos podem garantir tanto a distribuição vetorial (IDENTITY ou NEWSEQUENTIALID()) quanto a sequência monótona.
Regra principal de design do banco de dados - Vinte minutos gastos em um design bem pensado economizarão dias ou até semanas durante a manutenção do banco de dados de produção

3 respostas

Voted

Mark Storey-Smith · Answer 1 · 2012-01-10T02:02:08+08:00

Mark Storey-Smith

2012-01-10T02:02:08+08:002012-01-10T02:02:08+08:00

Você está confundindo vários conceitos aqui, o principal erro sendo chave primária != chave agrupada. Devido a esse mal-entendido, a maioria das orientações está incorreta. Para ser totalmente honesto, você provavelmente não está bem posicionado para escrever essas diretrizes.

Chave primária != chave agrupada
Identificadores exclusivos criam chaves agrupadas muito ruins
O SQL Server não está "muito bem ajustado para usar PKs inteiros". O caso de uma chave clusterizada estreita é abordado no link acima, não é uma questão de o SQL Server ser otimizado para chaves clusterizadas inteiras.

7

gbn · Answer 2 · 2012-01-10T03:23:00+08:00

Seus pontos não estão relacionados ao design do banco de dados: a escolha da chave natural ou substituta é uma decisão de implementação após a conclusão dos modelos conceituais e lógicos

Além de comentários e outras respostas:

algumas chaves naturais funcionam bem, como códigos de moeda ou idioma (CHF, GBP, DE, EN etc.)
evitar chaves compostas força você a sempre unir tabelas intermediárias (em vez de simples) pai-neto
adicionar uma chave substituta é desnecessário para tabelas de links

Editar: exemplo de "chaves compostas"

Suponha: t1 tem filho t2 tem filho t3

Se você tivesse a chave de t1 em t3 (chave composta), você pode juntar t1 e t3 diretamente.
A chave t1 também é a coluna da esquerda da chave t3, então você não precisa de um índice extra
Com uma chave substituta/FK, você deve ingressar via t2
Você precisa de índices extras nas colunas FK em t2 e t3 que

Esta última opção com o dogma "sempre usar chave substituta"

adiciona complexidade
diminuiu ou reverte a "economia" de espaço em disco

Jeff · Answer 3 · 2012-01-10T08:37:53+08:00

Jeff

2012-01-10T08:37:53+08:002012-01-10T08:37:53+08:00

Por que não começar com os fundamentos da normalização e a capacidade de reforçar a integridade relacional?

Além disso, se você estiver em um ambiente que usa replicação transacional e houver alguma chance dessa tabela ser replicada, você precisará de uma chave primária.

Aqui estão alguns materiais de leitura sugeridos que você pode compartilhar com esses programadores juniores:

Quando devo usar chave primária ou índice?
Piores práticas - não usar chaves primárias e índices agrupados por Andy Warren
Uma cartilha de normalização por Brian Kelley
Protegendo os dados do SQL Server Por John Magnabosco ISBN: 978-1-906434-26-7 (Disponível como um ebook gratuito da RedGate; consulte a seção começando no Capítulo 3, Proteção via normalização na página 66.)
Log Shipping vs. Replication Por Paul Ibison

3

SQL Server: conselho de chaves primárias para meu whitepaper necessário

Como ver a lista de bancos de dados no Oracle?

Quão grande deve ser o mysql innodb_buffer_pool_size?

Listar todas as colunas de uma tabela especificada

restaurar a tabela do arquivo .frm e .ibd?

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Como selecionar a primeira linha de cada grupo?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

SQL Server: conselho de chaves primárias para meu whitepaper necessário

3 respostas

relate perguntas