Preciso de índices separados para cada tipo de consulta ou um índice de várias colunas funcionará?

Question

Jason Whitish

Asked: 2019-02-09 08:15:06 +0800 CST2019-02-09 08:15:06 +0800 CST 2019-02-09 08:15:06 +0800 CST

É melhor ter uma tabela única mais ampla ou tabelas "filhas" baseadas em processos de negócios?

772

O exemplo com o qual estou trabalhando é um modelo de dados de fatura, onde pode haver cerca de 30 colunas quando terminarmos de projetar. Cada linha de dados seria exclusiva para uma única fatura.

Algumas das colunas são usadas por várias partes do aplicativo (número da fatura, obviamente, totais de cobrança, etc.), mas existem algumas colunas que são usadas apenas por um único processo.

Por exemplo, temos três colunas que refletem os números de controle ( varchar(18)) usados por clientes externos que devemos rastrear, mas apenas o processo de rastreamento analisa essas colunas. Os números de controle são geralmente de um para um na fatura, portanto, haveria apenas um número de controle por fatura. Existem também algumas faturas que simplesmente não terão um número de controle porque são faturas mais antigas sendo importadas de um sistema que não registrava números de controle (elas representarão cerca de 25% dos dados iniciais). Mesmo essas faturas mais antigas podem eventualmente obter um número de controle (embora provavelmente sejam antigas o suficiente para não acontecer).

Faz mais sentido pegar essas colunas e fazer uma tabela separada para elas, de uma perspectiva de modelagem de dados ou de desempenho, ou devemos apenas deixá-las na tabela Faturas? As respostas para este exemplo específico são apreciadas, mas também estou curioso sobre uma resposta mais geral, pois certamente nos depararemos com esse tipo de cenário novamente.

Com base em como li este artigo da Wikipedia , pretendo dizer particionamento vertical, pelo menos em um sentido lógico (as duas tabelas diferentes estariam no mesmo armazenamento físico neste caso).

Isso faz parte de um banco de dados OLTP.

Provavelmente 75% das linhas terão um número de controle eventualmente.

1 respostas

Voted

Solomon Rutzky · Answer 1 · 2019-02-12T08:17:54+08:00

Eu sou fã de separar itens que realmente têm propósitos separados (dado que este é um sistema OLTP, conforme declarado pelo OP).

Por favor, veja minha resposta para a seguinte pergunta do DBA.SE que cobre isso com mais detalhes e tem links para mais respostas minhas sobre este mesmo tópico mostrando vários exemplos de implementação disso:

Classes abstratas no SQL Server. Eles são mesmo possíveis?

O raciocínio geral é este:

O desempenho geralmente é melhor ao normalizar para tabelas separadas. Afinal, estamos trabalhando em um Sistema de Gerenciamento de Banco de Dados "Relacional", certo? Sim, haverá JOINs exigidos por alguns consumidores desses dados, mas menos dados por linha = mais linhas por página de dados = mais dados carregados na memória por cada leitura = E/S e uso de memória mais eficientes.
A manutenibilidade é melhor ao normalizar. É mais fácil explicar aos novos membros da equipe que os dados vêm de tabelas relacionadas (denotadas explicitamente pelo(s) relacionamento(s) PK -> FK) do que para eles lembrar de todas as regras malucas para quais colunas pertencem a quais equipes / consumidores.
Não é difícil ajustar o modelo de dados se/quando as regras de negócios mudarem. Sim, as coisas sempre mudam. No entanto, é bastante fácil mover uma coluna de uma tabela relacionada de volta para a tabela principal (simplificada aqui):
1. ALTERtabela principal para ADDnova coluna
2. UPDATEtabela principal com valores da tabela relacionada
3. Ajustar/criar índices, se uma nova coluna deve ser indexada
4. ALTERprocs para referenciar novo local
5. ALTERtabela relacionada à DROPcoluna (pode ser necessário descartar índices que usam essa coluna de antemão)

É melhor ter uma tabela única mais ampla ou tabelas "filhas" baseadas em processos de negócios?

conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

Como fazer a saída do sqlplus aparecer em uma linha?

Selecione qual tem data máxima ou data mais recente

Como faço para listar todos os esquemas no PostgreSQL?

Listar todas as colunas de uma tabela especificada

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

É melhor ter uma tabela única mais ampla ou tabelas "filhas" baseadas em processos de negócios?

1 respostas

relate perguntas