AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / dba / Perguntas / 52416
Accepted
Adam C
Adam C
Asked: 2013-10-30 06:27:57 +0800 CST2013-10-30 06:27:57 +0800 CST 2013-10-30 06:27:57 +0800 CST

Como determinar a distribuição de blocos (dados e número de documentos) em um cluster MongoDB fragmentado?

  • 772

Depois de fazer todas as coisas certas - escolher uma chave de fragmento apropriada, dimensionar horizontalmente, distribuir meus dados em vários fragmentos, acho que agora não tenho uma maneira real de determinar o quão bem equilibrados estão os dados em termos de contagem de documentos e tamanho dos dados. O sh.status()comando me dirá como os pedaços são distribuídos em termos de contagem, mas não o que compõe esses pedaços.

Existem muitas maneiras de inferir essas coisas - mas todas elas têm um lado negativo. Os caprichos de como o tamanho do banco de dados é calculado significa que, se houver exclusões significativas em um banco de dados, as estatísticas podem não ser um reflexo preciso da distribuição de dados. Se eu observar o tráfego que atinge cada fragmento, isso pode me dar alguma pista, mas apenas se meu tráfego for bom e previsível.

Então, como determino a distribuição de documentos em cada bloco, os tamanhos relativos de cada bloco e (claro) onde esses blocos residem atualmente?

mongodb sharding
  • 2 2 respostas
  • 9396 Views

2 respostas

  • Voted
  1. Best Answer
    Adam C
    2013-10-30T06:27:57+08:002013-10-30T06:27:57+08:00

    Atualmente, não há uma maneira integrada de fazer isso, portanto, uma pequena função é necessária. Para os fins desta resposta, criei um cluster de 2 estilhaços com aproximadamente 1 milhão de documentos de acordo com estas instruções . Em seguida, usei esta função para examinar esses documentos:

    AllChunkInfo = function(ns, est){
        var chunks = db.getSiblingDB("config").chunks.find({"ns" : ns}).sort({min:1}); //this will return all chunks for the ns ordered by min
        //some counters for overall stats at the end
        var totalChunks = 0;
        var totalSize = 0;
        var totalEmpty = 0;
        print("ChunkID,Shard,ChunkSize,ObjectsInChunk"); // header row
        // iterate over all the chunks, print out info for each 
        chunks.forEach( 
            function printChunkInfo(chunk) { 
    
            var db1 = db.getSiblingDB(chunk.ns.split(".")[0]); // get the database we will be running the command against later
            var key = db.getSiblingDB("config").collections.findOne({_id:chunk.ns}).key; // will need this for the dataSize call
            // dataSize returns the info we need on the data, but using the estimate option to use counts is less intensive
            var dataSizeResult = db1.runCommand({datasize:chunk.ns, keyPattern:key, min:chunk.min, max:chunk.max, estimate:est});
            // printjson(dataSizeResult); // uncomment to see how long it takes to run and status           
            print(chunk._id+","+chunk.shard+","+dataSizeResult.size+","+dataSizeResult.numObjects); 
            totalSize += dataSizeResult.size;
            totalChunks++;
            if (dataSizeResult.size == 0) { totalEmpty++ }; //count empty chunks for summary
            }
        )
        print("***********Summary Chunk Information***********");
        print("Total Chunks: "+totalChunks);
        print("Average Chunk Size (bytes): "+(totalSize/totalChunks));
        print("Empty Chunks: "+totalEmpty);
        print("Average Chunk Size (non-empty): "+(totalSize/(totalChunks-totalEmpty)));
    }  
    

    É bastante básico no momento, mas faz o trabalho. Eu também adicionei no github e posso expandi-lo ainda mais lá. Por enquanto, porém, ele fará o que for necessário. No conjunto de dados de teste descrito no início, a saída se parece com isso (alguns dados foram removidos para brevidade):

    mongos> AllChunkInfo("chunkTest.foo", true);
    ChunkID,Shard,ChunkSize,ObjectsInChunk
    chunkTest.foo-_id_MinKey,shard0000,0,0
    chunkTest.foo-_id_0.0,shard0000,599592,10707
    chunkTest.foo-_id_10707.0,shard0000,1147832,20497
    chunkTest.foo-_id_31204.0,shard0000,771568,13778
    chunkTest.foo-_id_44982.0,shard0000,771624,13779
    // omitted some data for brevity
    chunkTest.foo-_id_940816.0,shard0000,1134224,20254
    chunkTest.foo-_id_961070.0,shard0000,1145032,20447
    chunkTest.foo-_id_981517.0,shard0000,1035104,18484
    ***********Summary Chunk Information***********
    Total Chunks: 41
    Average Chunk Size (bytes): 1365855.024390244
    Empty Chunks: 1
    Average Chunk Size (non-empty): 1400001.4
    

    Para explicar os argumentos passados ​​para a função:

    O primeiro argumento é o namespace a ser examinado (uma string) e o segundo (um booleano) é se deve ou não usar a opção de estimativa ou não. Para qualquer ambiente de produção é recomendável usar estimate:true- se não for usado, todos os dados precisarão ser examinados, e isso significa puxá-los para a memória, o que será caro.

    Embora a estimate:trueversão não seja gratuita (ela usa contagens e tamanhos médios de objetos), é pelo menos razoável executá-la mesmo em um grande conjunto de dados. A versão estimada também pode estar um pouco errada se o tamanho do objeto estiver distorcido em alguns fragmentos e, portanto, o tamanho médio não for representativo (isso geralmente é bastante raro).

    • 11
  2. Landon
    2014-08-01T14:52:30+08:002014-08-01T14:52:30+08:00
    db.collection.getShardDistribution()
    

    Esse é um comando muito bom que uso frequentemente para coisas como esta. Ele mostrará o total de blocos, o tamanho médio do bloco, a contagem de documentos, tudo por fragmento. Ele não fornece os dados de cada bloco como a resposta acima, mas é bastante rápido e fornece uma boa visão geral do que você está procurando.

    • 3

relate perguntas

  • Mongo Map-Reduce ou Sharding?

  • Configurando o Mongo com clustering

  • Diferença entre as chamadas find e findone do MongoDB

  • A fragmentação é eficaz para coleções pequenas?

  • Bons recursos para operar/administrar o MongoDB

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Como fazer a saída do sqlplus aparecer em uma linha?

    • 3 respostas
  • Marko Smith

    Selecione qual tem data máxima ou data mais recente

    • 3 respostas
  • Marko Smith

    Como faço para listar todos os esquemas no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Conceder acesso a todas as tabelas para um usuário

    • 5 respostas
  • Marko Smith

    Listar todas as colunas de uma tabela especificada

    • 5 respostas
  • Marko Smith

    Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

    • 4 respostas
  • Marko Smith

    Como você mysqldump tabela (s) específica (s)?

    • 4 respostas
  • Marko Smith

    Listar os privilégios do banco de dados usando o psql

    • 10 respostas
  • Marko Smith

    Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Como faço para listar todos os bancos de dados e tabelas usando o psql?

    • 7 respostas
  • Martin Hope
    Stéphane Como faço para listar todos os esquemas no PostgreSQL? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh Por que o log de transações continua crescendo ou fica sem espaço? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland Listar todas as colunas de uma tabela especificada 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney O MySQL pode realizar consultas razoavelmente em bilhões de linhas? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx Como posso monitorar o andamento de uma importação de um arquivo .sql grande? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison Como você mysqldump tabela (s) específica (s)? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    pedrosanta Listar os privilégios do banco de dados usando o psql 2011-08-04 11:01:21 +0800 CST
  • Martin Hope
    Jonas Como posso cronometrar consultas SQL usando psql? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas Como faço para listar todos os bancos de dados e tabelas usando o psql? 2011-02-18 00:45:49 +0800 CST

Hot tag

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve