AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / dba / Perguntas / 6607
Accepted
Rick James
Rick James
Asked: 2011-10-08 10:49:29 +0800 CST2011-10-08 10:49:29 +0800 CST 2011-10-08 10:49:29 +0800 CST

Como o particionamento de tabelas ajuda?

  • 772

Estou tendo dificuldade em entender a ideia dos prós e contras do particionamento de tabelas. Estou prestes a começar a trabalhar em um projeto que teria 8 tabelas e uma delas será a tabela de dados principal que conterá 180-260 milhões de registros. Como vai ser tabela devidamente indexada, então estou pensando em limitar os registros da tabela para 20 milhões desta forma eu teria que criar de 9 a 13 tabelas.

Mas não tenho certeza de como isso melhorará o desempenho porque eles estarão na mesma máquina (32 GB de RAM)?

Estou usando o MySQL e as tabelas seriam MyISAM e a tabela grande teria um índice no campo id e não há mais complexidades como pesquisa de texto completo, etc.

Por favor, também esclareça o particionamento de tabela versus o particionamento de banco de dados.

mysql database-design
  • 3 3 respostas
  • 20548 Views

3 respostas

  • Voted
  1. Best Answer
    RolandoMySQLDBA
    2011-10-08T12:20:15+08:002011-10-08T12:20:15+08:00

    O seguinte é apenas um discurso insano e delirante...

    Se você deixar todos os dados em uma tabela (sem particionamento), terá tempos de pesquisa O(log n) usando uma chave. Vamos pegar o pior índice do mundo, a árvore binária. Cada nó de árvore tem exatamente uma chave. Uma árvore binária perfeitamente balanceada com 268.435.455 (2^28 - 1) nós de árvore teria uma altura de 28. Se você dividir essa árvore binária em 16 árvores separadas, obterá 16 árvores binárias cada uma com 16.777.215 (2^24 - 1) nós da árvore para uma altura de 24. O caminho de busca é reduzido em 4 nós, uma redução de altura de 14,2857%. Se o tempo de pesquisa for em microssegundos, uma redução de 14,2857% no tempo de pesquisa é de zero a insignificante.

    Agora, no mundo real, um índice BTREE teria nós de árvore com várias chaves. Cada pesquisa BTREE realizaria uma pesquisa binária dentro da página com uma possível descida para outra página. Por exemplo, se cada página BTREE contivesse 1024 chaves, uma altura de árvore de 3 ou 4 seria a norma, uma altura de árvore curta de fato.

    Observe que um particionamento de uma tabela não reduz a altura do BTREE que já é pequeno. Dado um particionamento de 260 milhões de linhas, existe até uma forte probabilidade de haver vários BTREEs com a mesma altura. A busca por uma chave pode passar por todas as páginas BTREE raiz todas as vezes. Apenas um preencherá o caminho do intervalo de pesquisa necessário.

    Agora expanda isso. Todas as partições existem na mesma máquina. Se você não tiver discos separados para cada partição, terá E/S de disco e rotações do eixo como um gargalo automático fora do desempenho da pesquisa de partição.

    Nesse caso, o particionamento por banco de dados também não compra nada se id for a única chave de pesquisa sendo utilizada.

    O particionamento de dados deve servir para agrupar dados que estão de forma lógica e coesa na mesma classe. O desempenho da pesquisa de cada partição não precisa ser a consideração principal, desde que os dados estejam agrupados corretamente. Depois de obter o particionamento lógico, concentre-se no tempo de pesquisa. Se você estiver apenas separando dados apenas por id, é possível que muitas linhas de dados nunca sejam acessadas para leituras ou gravações. Agora, essa deve ser uma consideração importante: localize todos os ids acessados ​​com mais frequência e particione por eles . Todos os IDs acessados ​​com menos frequência devem residir em uma grande tabela de arquivo que ainda é acessível por pesquisa de índice para essa consulta 'uma vez na lua azul'.

    O impacto geral deve ser ter pelo menos duas partições: uma partição para IDs acessados ​​com frequência e outra partição para o restante dos IDs. Se o número de IDs acessados ​​com frequência for bastante grande, você pode, opcionalmente, particionar isso.

    • 35
  2. ConcernedOfTunbridgeWells
    2011-10-11T02:24:41+08:002011-10-11T02:24:41+08:00

    200 milhões de linhas certamente estão no intervalo em que você pode se beneficiar do particionamento de tabelas. Dependendo da sua aplicação, você pode apostar em alguns dos benefícios listados abaixo:

    • Facilidade de limpeza de dados antigos Se você precisar limpar registros com mais de (digamos) 6 meses, você pode particionar a tabela na data e, em seguida, trocar as partições mais antigas. Isso é muito mais rápido do que excluir dados de uma tabela e geralmente pode ser feito em um sistema ativo. No caso do OP, isso pode ser útil para a manutenção do sistema.

    • Vários volumes de disco O particionamento permite dividir dados para distribuir o tráfego de disco em vários volumes de disco para obter velocidade. Com um controlador RAID moderno, isso provavelmente não será um problema para o OP.

    • Varreduras mais rápidas de tabelas e intervalos Na verdade, um sistema operacional não deveria fazer esse tipo de coisa, mas um data warehouse ou sistema semelhante fará esse tipo de consulta em quantidade. As varreduras de tabela usam principalmente tráfego de disco sequencial, portanto, geralmente são a maneira mais eficiente de processar uma consulta que retorna mais do que uma pequena porcentagem das linhas em uma tabela.

      O particionamento por um filtro comum (normalmente baseado em tempo ou período) permite que grandes partes da tabela sejam eliminadas de tais consultas se o predicado puder ser resolvido em relação à chave de particionamento. Ele também permite que a tabela seja dividida em vários volumes, o que pode proporcionar ganhos significativos de desempenho para grandes conjuntos de dados. Normalmente, isso não é um problema para sistemas operacionais.

    Para os propósitos do OP, o particionamento provavelmente não trará muitos benefícios de desempenho para consultas operacionais, mas pode ser útil para o gerenciamento do sistema. Se houver algum requisito significativo para relatar agregações em grandes volumes de dados, um esquema de particionamento apropriado pode ajudar nisso.

    • 17
  3. Bill
    2014-07-15T13:10:04+08:002014-07-15T13:10:04+08:00

    O particionamento permite reorganizações simultâneas por partição, se todos os seus índices forem particionados. Caso contrário, as partições ainda serão muito menores e usarão menos espaço de trabalho para reorganizar. E, internamente, qualquer DBMS "bom" pode fazer coisas em paralelo com tabelas particionadas. Isso provavelmente NÃO inclui MySQL ou MyISAM, embora ....

    • 1

relate perguntas

  • Existem ferramentas de benchmarking do MySQL? [fechado]

  • Onde posso encontrar o log lento do mysql?

  • Como posso otimizar um mysqldump de um banco de dados grande?

  • Quando é o momento certo para usar o MariaDB em vez do MySQL e por quê?

  • Como um grupo pode rastrear alterações no esquema do banco de dados?

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Como você mysqldump tabela (s) específica (s)?

    • 4 respostas
  • Marko Smith

    Como você mostra o SQL em execução em um banco de dados Oracle?

    • 2 respostas
  • Marko Smith

    Como selecionar a primeira linha de cada grupo?

    • 6 respostas
  • Marko Smith

    Listar os privilégios do banco de dados usando o psql

    • 10 respostas
  • Marko Smith

    Posso ver Consultas Históricas executadas em um banco de dados SQL Server?

    • 6 respostas
  • Marko Smith

    Como uso currval() no PostgreSQL para obter o último id inserido?

    • 10 respostas
  • Marko Smith

    Como executar o psql no Mac OS X?

    • 11 respostas
  • Marko Smith

    Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Como faço para listar todos os bancos de dados e tabelas usando o psql?

    • 7 respostas
  • Marko Smith

    Passando parâmetros de array para um procedimento armazenado

    • 12 respostas
  • Martin Hope
    Manuel Leduc Restrição exclusiva de várias colunas do PostgreSQL e valores NULL 2011-12-28 01:10:21 +0800 CST
  • Martin Hope
    markdorison Como você mysqldump tabela (s) específica (s)? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Stuart Blackler Quando uma chave primária deve ser declarada sem cluster? 2011-11-11 13:31:59 +0800 CST
  • Martin Hope
    pedrosanta Listar os privilégios do banco de dados usando o psql 2011-08-04 11:01:21 +0800 CST
  • Martin Hope
    Jonas Como posso cronometrar consultas SQL usando psql? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas Como faço para listar todos os bancos de dados e tabelas usando o psql? 2011-02-18 00:45:49 +0800 CST
  • Martin Hope
    BrunoLM Guid vs INT - Qual é melhor como chave primária? 2011-01-05 23:46:34 +0800 CST
  • Martin Hope
    bernd_k Quando devo usar uma restrição exclusiva em vez de um índice exclusivo? 2011-01-05 02:32:27 +0800 CST
  • Martin Hope
    Patrick Como posso otimizar um mysqldump de um banco de dados grande? 2011-01-04 13:13:48 +0800 CST

Hot tag

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve