AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / dba / 问题 / 72626
Accepted
Landon
Landon
Asked: 2014-07-29 17:11:54 +0800 CST2014-07-29 17:11:54 +0800 CST 2014-07-29 17:11:54 +0800 CST

Mongo 大块不会分裂

  • 772

我设置了 3 个分片,但容量不足,所以我又添加了 3 个分片。(每个分片都是一个副本集)。但是数据并没有均匀地分布在集群中。我将 chunkSize 设置为标准的 64mb:

mongos> db.settings.find( { _id:"chunksize" } )
{ "_id" : "chunksize", "value" : 64 }

我认为这意味着当一个块达到 64mb 时,它会分成两个大小相同的块,大小均为 32mb。这就是这里演示的内容。这不正确吗?

这是我的分片分布:

mongos> db.accounts.getShardDistribution()
Shard rs_0 at rs_0/mongo_rs_0_member_1:27018,mongo_rs_0_member_2:27019,mongo_rs_0_member_3:27020
 data : 137.62GiB docs : 41991598 chunks : 1882
 estimated data per chunk : 74.88MiB
 estimated docs per chunk : 22312

Shard rs_1 at rs_1/mongo_rs_1_member_1:27018,mongo_rs_1_member_2:27019,mongo_rs_1_member_3:27020
 data : 135.2GiB docs : 41159069 chunks : 1882
 estimated data per chunk : 73.56MiB
 estimated docs per chunk : 21869

Shard rs_2 at rs_2/mongo_rs_2_member_1:27018,mongo_rs_2_member_2:27019,mongo_rs_2_member_3:27020
 data : 219.92GiB docs : 69739096 chunks : 1882
 estimated data per chunk : 119.66MiB
 estimated docs per chunk : 37055

Shard rs_3 at rs_3/mongo_rs_3_member_1:27018,mongo_rs_3_member_2:27019,mongo_rs_3_member_3:27020
 data : 101.52GiB docs : 30650628 chunks : 1882
 estimated data per chunk : 55.23MiB
 estimated docs per chunk : 16286

Shard rs_4 at rs_4/mongo_rs_4_member_1:27018,mongo_rs_4_member_2:27019,mongo_rs_4_member_3:27020
 data : 103.38GiB docs : 31071379 chunks : 1883
 estimated data per chunk : 56.22MiB
 estimated docs per chunk : 16500

Shard rs_5 at rs_5/mongo_rs_5_member_1:27018,mongo_rs_5_member_2:27019,mongo_rs_5_member_3:27020
 data : 101.1GiB docs : 30516395 chunks : 1881
 estimated data per chunk : 55.04MiB
 estimated docs per chunk : 16223

Totals
 data : 798.77GiB docs : 245128165 chunks : 11292
 Shard rs_0 contains 17.23% data, 17.13% docs in cluster, avg obj size on shard : 3KiB
 Shard rs_1 contains 16.92% data, 16.79% docs in cluster, avg obj size on shard : 3KiB
 Shard rs_2 contains 27.53% data, 28.45% docs in cluster, avg obj size on shard : 3KiB
 Shard rs_3 contains 12.7% data, 12.5% docs in cluster, avg obj size on shard : 3KiB
 Shard rs_4 contains 12.94% data, 12.67% docs in cluster, avg obj size on shard : 3KiB
 Shard rs_5 contains 12.65% data, 12.44% docs in cluster, avg obj size on shard : 3KiB

这是怎么回事?当设置为 chunkSize 时,前 3 个分片/副本集的平均大小如何大于 64mb?Rs_2 是 119mb!Rs_2 有 27.53% 的数据,而它应该有 16.6%。

我的 shardkey 中的基数非常高,而且它不是单调递增的。

我应该在这里做什么?我可以手动找到大块并将它们拆分,但这很痛苦。我会降低我的 chunkSize 吗?我需要运行一些服务/呼叫来自动执行此操作吗?

mongodb sharding
  • 1 1 个回答
  • 5001 Views

1 个回答

  • Voted
  1. Best Answer
    Adam C
    2014-08-01T03:36:23+08:002014-08-01T03:36:23+08:00

    这里要经历很多,所以我将一块一块地看,首先是拆分:

    我认为这意味着当一个块达到 64mb 时,它会分成两个大小相同的块,大小均为 32mb。这就是这里所展示的。这不正确吗?

    这不是它的工作原理。如果您有一个 64MB 的块并且您手动运行splitFind命令,您将(默认情况下)在中点拆分 2 个块。自动拆分的方式有所不同 - 细节实际上非常复杂,但使用我解释的经验法则,你会足够接近。

    每个都mongos跟踪它为每个块插入/更新了多少数据(大约)。当它看到大约 20% 的最大块大小(默认为 12-13MiB)已写入特定块时,它将尝试自动拆分该块。它向拥有该块的主节点发送一个splitVector命令,要求它评估块范围并返回任何潜在的分割点。如果主要回复有效点,那么 mongos 将尝试在这些点上进行拆分。如果没有有效的分割点,那么当更新/写入达到最大块大小的 40%、60% 时,mongos 将重试此过程。

    正如您所看到的,这不会在拆分之前等待块达到最大大小,实际上它应该在此之前很久就发生,并且对于正常运行的集群,您通常不会看到这么大的块。

    这是怎么回事?当设置为 chunkSize 时,前 3 个分片/副本集的平均大小如何大于 64mb?Rs_2 是 119mb!

    防止大块发生的唯一方法是上面描述的自动拆分功能。您的平均块大小表明某些东西正在阻止块被拆分。这有几个可能的原因,但最常见的是分片键不够精细。

    如果您的块范围下降到单个键值,则无法进行进一步的拆分,您将获得“巨型”块。我需要查看范围以确定,但是您可能可以很容易地手动检查它们,sh.status(true)但要获得更容易理解的版本,请查看我发布的关于确定块分布的问答。

    如果这是问题,您实际上只有 2 个选择 - 要么与巨型块一起生活(并且可能增加最大块大小以允许它们四处移动 - 任何超过最大值的东西都将被中止并被 mongos 标记为“巨型”) ,或使用更细化的分片键重新分片数据,以防止创建单个键块。

    Rs_2 有 27.53% 的数据,而它应该有 16.6%。

    这是关于平衡器的一个相当普遍的误解——它不根据数据大小进行平衡,它只是平衡块的数量(你可以看到它们分布得很好)——从这个角度来看,一个包含 0 个文档的块只计算与具有 250k 个文档的文件相同。因此,数据不平衡的原因是由于块本身的不平衡(一些包含比其他更多的数据)。

    我应该在这里做什么?我可以手动找到大块并将它们拆分,但这很痛苦。我会降低我的 chunkSize 吗?

    降低块大小会导致 mongos 更频繁地检查分割点,但如果分割失败(你的块大小平均值表明是这种情况),它将无济于事,它只会更频繁地失败。作为第一步,我会找到最大的块(请参阅上面的问答链接)并首先将它们划分为优先级。

    如果您要进行任何手动拆分或移动,我建议关闭平衡器,这样它就不会持有元数据锁,并且不会在您开始拆分时立即启动。在低流量时间执行此操作通常也是一个好主意,因为否则我上面描述的自动拆分也会干扰。

    快速搜索后,我没有任何通用的东西可以立即处理,但我过去曾见过用于自动化此过程的脚本。它往往需要进行定制以适应特定问题(例如,想象由于单调分片键与块数据密度问题导致的不平衡)。

    • 8

相关问题

  • Mongo Map-Reduce 还是分片?

  • 使用集群设置 Mongo

  • MongoDB 的 find 和 findone 调用之间的区别

  • 分片对小集合有效吗?

  • 关于操作/管理 MongoDB 的良好资源

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目

    • 12 个回答
  • Marko Smith

    如何让sqlplus的输出出现在一行中?

    • 3 个回答
  • Marko Smith

    选择具有最大日期或最晚日期的日期

    • 3 个回答
  • Marko Smith

    如何列出 PostgreSQL 中的所有模式?

    • 4 个回答
  • Marko Smith

    列出指定表的所有列

    • 5 个回答
  • Marko Smith

    如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

    • 4 个回答
  • Marko Smith

    你如何mysqldump特定的表?

    • 4 个回答
  • Marko Smith

    使用 psql 列出数据库权限

    • 10 个回答
  • Marko Smith

    如何从 PostgreSQL 中的选择查询中将值插入表中?

    • 4 个回答
  • Marko Smith

    如何使用 psql 列出所有数据库和表?

    • 7 个回答
  • Martin Hope
    Jin 连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane 如何列出 PostgreSQL 中的所有模式? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh 为什么事务日志不断增长或空间不足? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland 列出指定表的所有列 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney MySQL 能否合理地对数十亿行执行查询? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx 如何监控大型 .sql 文件的导入进度? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison 你如何mysqldump特定的表? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 对 SQL 查询进行计时? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas 如何从 PostgreSQL 中的选择查询中将值插入表中? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 列出所有数据库和表? 2011-02-18 00:45:49 +0800 CST

热门标签

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve