我创建了一个包含两个分片的集群。或者说我是这么想的。在我的设计中,第一台服务器有 mongos_router shard1 (3 个节点)和配置服务器。第二台服务器只有分片 2 个节点。配置分片后,我为每个数据库启用了分片。当我查看 sh.status() 的输出时,我看到以下输出:
...
{
database: {
_id: 'wins_emission',
primary: 'shard1rs',
partitioned: false,
version: {
uuid: UUID('aebf94cf-6069-41ba-9a91-f91a944071b1'),
timestamp: Timestamp({ t: 1711952615, i: 3000 }),
lastMod: 1
}
},
collections: {}
},
{
database: {
_id: 'wins_healthcheck',
primary: 'shard2rs',
partitioned: false,
version: {
uuid: UUID('663cb5f7-b7b3-4f40-9f52-2c3d1969fb65'),
timestamp: Timestamp({ t: 1711952305, i: 4 }),
lastMod: 1
}
},
...
我理解这是因为数据库将分布在分片之间。我预计节点之间的数据不会相同。例如,通知表有 17.7k 个文档。我希望这些文档能够在节点之间共享。就像 shard1-first 节点有 4k 一样,shard1-second 节点有 4k 等等。但它不是这样工作的。每个分片中的每个节点都有相同数量的 17.7k 。我可能会误解这一点。
我尝试在通知表的集合级别进行分片。我创建了一个散列分片键。然后执行sh.shardCollection()
命令。现在,我的第一个分片在其自己的节点中有 4.7k 个文档,而 shard2 本身有 12.9k 个文档。现在这让我想到了这些问题。
- 我是否需要对每个集合进行分片才能使用分片集群?
- 我应该对每个集合进行分片,还是只对那些保存日志等大数据的集合进行分片?
- 为什么一个分片中的所有节点都有相同数量的文档。他们不应该自行分发数据吗?
任何帮助表示赞赏。
编辑1:特定集合的getShardDistribution的输出;
{
data: '382.25MiB',
docs: 7006,
chunks: 3,
'estimated data per chunk': '127.41MiB',
'estimated docs per chunk': 2335
}
---
Shard shard2rs at shard2rs/172.16.114.129:27020,172.16.114.129:27021,172.16.114.129:27022
{
data: '579.78MiB',
docs: 10578,
chunks: 1,
'estimated data per chunk': '579.78MiB',
'estimated docs per chunk': 10578
}
---
Totals
{
data: '962.03MiB',
docs: 17584,
chunks: 4,
'Shard shard1rs': [
'39.73 % data',
'39.84 % docs in cluster',
'55KiB avg obj size on shard'
],
'Shard shard2rs': [
'60.26 % data',
'60.15 % docs in cluster',
'56KiB avg obj size on shard'
]
}
MongoDB 以块的形式分布数据。默认块大小为 128 MiBytes。
因此,采集数据大小必须大于128 MiBytes,否则不进行分发。
关于您的问题:
在 MongoDB 的早期版本中,数据被分片以获得均匀分布的文档/块数量。在新版本的 MongoDB 中,数据被分片以获得均匀分布的数据量。
请在我的分片集群中查看此示例: