Eu tinha uma configuração de 3 estilhaços e fiquei sem capacidade, então adicionei mais 3 estilhaços. (Cada fragmento é um conjunto de réplicas). Mas os dados não são distribuídos uniformemente pelo cluster. Eu tenho meu chunkSize definido para o padrão de 64 MB:
mongos> db.settings.find( { _id:"chunksize" } )
{ "_id" : "chunksize", "value" : 64 }
Eu pensei que isso significava que quando um pedaço atinge 64 MB, ele se divide em dois pedaços iguais, ambos de tamanho 32 MB. É o que está demonstrado aqui . Isso não é correto?
Aqui está minha distribuição de sharding:
mongos> db.accounts.getShardDistribution()
Shard rs_0 at rs_0/mongo_rs_0_member_1:27018,mongo_rs_0_member_2:27019,mongo_rs_0_member_3:27020
data : 137.62GiB docs : 41991598 chunks : 1882
estimated data per chunk : 74.88MiB
estimated docs per chunk : 22312
Shard rs_1 at rs_1/mongo_rs_1_member_1:27018,mongo_rs_1_member_2:27019,mongo_rs_1_member_3:27020
data : 135.2GiB docs : 41159069 chunks : 1882
estimated data per chunk : 73.56MiB
estimated docs per chunk : 21869
Shard rs_2 at rs_2/mongo_rs_2_member_1:27018,mongo_rs_2_member_2:27019,mongo_rs_2_member_3:27020
data : 219.92GiB docs : 69739096 chunks : 1882
estimated data per chunk : 119.66MiB
estimated docs per chunk : 37055
Shard rs_3 at rs_3/mongo_rs_3_member_1:27018,mongo_rs_3_member_2:27019,mongo_rs_3_member_3:27020
data : 101.52GiB docs : 30650628 chunks : 1882
estimated data per chunk : 55.23MiB
estimated docs per chunk : 16286
Shard rs_4 at rs_4/mongo_rs_4_member_1:27018,mongo_rs_4_member_2:27019,mongo_rs_4_member_3:27020
data : 103.38GiB docs : 31071379 chunks : 1883
estimated data per chunk : 56.22MiB
estimated docs per chunk : 16500
Shard rs_5 at rs_5/mongo_rs_5_member_1:27018,mongo_rs_5_member_2:27019,mongo_rs_5_member_3:27020
data : 101.1GiB docs : 30516395 chunks : 1881
estimated data per chunk : 55.04MiB
estimated docs per chunk : 16223
Totals
data : 798.77GiB docs : 245128165 chunks : 11292
Shard rs_0 contains 17.23% data, 17.13% docs in cluster, avg obj size on shard : 3KiB
Shard rs_1 contains 16.92% data, 16.79% docs in cluster, avg obj size on shard : 3KiB
Shard rs_2 contains 27.53% data, 28.45% docs in cluster, avg obj size on shard : 3KiB
Shard rs_3 contains 12.7% data, 12.5% docs in cluster, avg obj size on shard : 3KiB
Shard rs_4 contains 12.94% data, 12.67% docs in cluster, avg obj size on shard : 3KiB
Shard rs_5 contains 12.65% data, 12.44% docs in cluster, avg obj size on shard : 3KiB
O que há com isso? Como os primeiros 3 conjuntos de fragmentos/réplicas podem ter um tamanho médio maior que 64 MB quando definido como chunkSize? Rs_2 é 119mb! Rs_2 tem 27,53% dos dados quando deveria ter 16,6%.
Eu tenho uma cardinalidade muito alta em meu shardkey, e não é monotonicamente crescente.
O que devo fazer aqui? Posso encontrar manualmente pedaços grandes e dividi-los, mas isso é uma dor. Devo reduzir meu chunkSize? Existe algum serviço/chamada que preciso executar para fazer isso automaticamente?