AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / dba / Perguntas / 207167
Accepted
Neil P
Neil P
Asked: 2018-05-19 01:38:59 +0800 CST2018-05-19 01:38:59 +0800 CST 2018-05-19 01:38:59 +0800 CST

Por que uma distribuição round robin é melhor para um conjunto de dados distorcido?

  • 772

Eu tenho um conjunto de dados distorcido, onde a maioria das linhas se enquadra nos 10 maiores valores da minha melhor chave de distribuição candidata. Meus dados são compostos de duas tabelas grandes, que compartilham apenas duas chaves - minha melhor chave candidata, mais uma outra, mas essa é nula 80% das vezes, então eu a descontei como uma opção.

A sabedoria convencional diz que, se os dados estiverem distorcidos, devo usar uma distribuição round robin. Olhando para os planos de explicação produzidos por junções nas mesas, vejo que minha coluna candidata é a tecla de embaralhar para o movimento de embaralhar. Isso me faz questionar se devo alterar a distribuição de round robin para hash distribuído, economizando o tempo necessário para mover dados em cada execução.

Minha lógica está correta? Eu sinto que isso é contra a sabedoria convencional ao trabalhar com sql distribuído. Não espero nenhuma consulta em que essa junção não seja necessária, portanto, pode ser que outros vejam o benefício.

azure-sql-data-warehouse
  • 1 1 respostas
  • 907 Views

1 respostas

  • Voted
  1. Best Answer
    wBob
    2018-05-19T03:42:37+08:002018-05-19T03:42:37+08:00

    O round robin sempre envolve movimentação de dados devido à sua natureza, mas não precisa ser catastrófico para seu desempenho. O motivo pelo qual você o usa para dados distorcidos é porque, quando você distribui por hash, um hash exclusivo é gerado para cada valor e as linhas são distribuídas nas 60 distribuições de acordo. No seu exemplo, a maioria dos seus dados acabaria em uma (ou apenas algumas) distribuições e, portanto, você não está aproveitando a computação disponível para você. Digamos que você só tenha a oportunidade de aproveitar 20% dos recursos de computação disponíveis e o restante esteja ocioso.

    Os requisitos para boas colunas de hash são: não devem ser atualizáveis, não podem ser NULL, devem ter grande número de valores distintos e distribuição uniforme.

    Você tem a opção de criar uma chave concatenada das outras? Isso poderia ajudar a criar uma distribuição mais uniforme e seria útil desde que você a usasse em junções entre as duas tabelas.

    Apenas alguns outros conselhos, projete suas principais consultas, use alguns dos outros recursos disponíveis no SQL DW, como o DWU correto, classes de recursos, índices não clusterizados, estatísticas automáticas. Observe também que a geração 2 do SQL DW já está disponível.

    HTH

    • 2

relate perguntas

  • O Azure SQL DW dá suporte a exibições particionadas?

  • Armazém de dados Azure Sql - existe alguma maneira de ver o verdadeiro plano de consulta?

  • SQL Data Warehouse - É possível alternar uma tabela inteira para uma partição?

  • Armazém de dados SQL do Azure - os limites de transação se aplicam a operações CTAS?

  • Como adicionar uma restrição de verificação no data warehouse do sql Azure?

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

    • 12 respostas
  • Marko Smith

    Como fazer a saída do sqlplus aparecer em uma linha?

    • 3 respostas
  • Marko Smith

    Selecione qual tem data máxima ou data mais recente

    • 3 respostas
  • Marko Smith

    Como faço para listar todos os esquemas no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Listar todas as colunas de uma tabela especificada

    • 5 respostas
  • Marko Smith

    Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

    • 4 respostas
  • Marko Smith

    Como você mysqldump tabela (s) específica (s)?

    • 4 respostas
  • Marko Smith

    Listar os privilégios do banco de dados usando o psql

    • 10 respostas
  • Marko Smith

    Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Como faço para listar todos os bancos de dados e tabelas usando o psql?

    • 7 respostas
  • Martin Hope
    Jin conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane Como faço para listar todos os esquemas no PostgreSQL? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh Por que o log de transações continua crescendo ou fica sem espaço? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland Listar todas as colunas de uma tabela especificada 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney O MySQL pode realizar consultas razoavelmente em bilhões de linhas? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx Como posso monitorar o andamento de uma importação de um arquivo .sql grande? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison Como você mysqldump tabela (s) específica (s)? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas Como posso cronometrar consultas SQL usando psql? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas Como faço para listar todos os bancos de dados e tabelas usando o psql? 2011-02-18 00:45:49 +0800 CST

Hot tag

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve