Mongo Map-Reduce 还是分片？

Question

ST-DDT

Asked: 2019-03-28 09:11:49 +0800 CST2019-03-28 09:11:49 +0800 CST 2019-03-28 09:11:49 +0800 CST

Mongodb 在副本重新同步期间消耗了太多 RAM

772

我有一个带有 2 个数据节点和 1 个仲裁器的 mongodb 集群。我的所有 centos 虚拟机都使用 mongodb 4.0.7。

几天前，我的一台服务器（我们称之为 data-2）发生了致命的崩溃，并请求对数据进行完全重新同步。在 data-2 上重新启动 mongodb 后，重新同步开始。然而，紧接着 data-1（主要）上的 RAM 使用率开始飙升。

然而，在 data-2 上，内存消耗几乎是恒定的：

在正常使用时间内，重新同步期间内存消耗保持接近 data-2 的消耗。

几个小时后，最坏的情况发生了，最后剩下的数据持有者（data-1）在使用整个 ram + swap（~50GB）后被内核杀死了 OOM。我可以毫不费力地将 data-1 恢复为主，但我每次尝试开始重新同步时都会再次发生同样的情况。

此行为似乎与重新同步期间的实际数据库使用无关。（为了重新同步而关闭 prod db 绝对是不行的）。

总数据大小约 500GB，最大数据库 480GB，包含约 300 个集合。

现在我的问题：

什么在重新同步期间使用了这么多内存？
如何有效分析内存消耗？
如何防止主数据库因重新同步而关闭？

2 个回答

Voted

Md Haidar Ali Khan · Answer 1 · 2019-03-29T10:55:19+08:00

什么在重新同步期间使用了这么多内存？

有这么多东西在resync期间使用内存，这里Mr. SpiXel明确定义了WiredTiger缓存设置只控制WiredTiger存储引擎直接使用的内存大小（不是mongod使用的总内存）。在 MongoDB/WiredTiger 配置中，许多其他东西可能会占用内存，例如：

WiredTiger 压缩磁盘存储，但内存中的数据未压缩。
WiredTiger 默认不会在每次提交时同步数据
WiredTiger 在其缓存中保留多个版本的记录
WiredTiger 将数据的校验和保存在缓存中
MongoDB 本身会消耗内存来处理打开的连接、聚合、服务器端代码等。

WiredTiger 将用于所有数据的内部缓存的最大大小。

在 3.4 版更改：值的范围可以从256MB到10TB，并且可以是浮点数。此外，默认值也发生了变化。

从开始3.4，WiredTiger internal cache默认情况下，将使用以下两者中较大的一个：

50% of (RAM - 1 GB), or
256 MB.

例如，在总共有 4GB RAM 的系统上，WiredTiger 缓存将使用 1.5GB 的 RAM (0.5 * (4 GB - 1 GB) = 1.5 GB)。相反，总共有 1.25 GB RAM 的系统将分配 256 MB 给 WiredTiger 缓存，因为这是总 RAM 减去 1 GB 的一半以上 (0.5 * (1.25 GB - 1 GB) = 128 MB < 256 MB) .

如何有效分析内存消耗？

根据这里的一些MongoDB 博客@CASEY DUNHAM，MongoDB 性能是一个巨大的话题，涵盖了系统活动的许多领域。默认情况下，MongoDB 将为50WiredTiger 数据缓存保留可用内存的百分比。此缓存的大小对于确保 WiredTiger 充分执行非常重要。值得一看，看看你是否应该改变它的默认值。一个好的经验法则是缓存的大小应该足够大以容纳整个应用程序工作集。

我们怎么知道是否要改变它？查看缓存使用统计信息：

> db.serverStatus().wiredTiger.cache
{
    "tracked dirty bytes in the cache" : <num>,
    "tracked bytes belonging to internal pages in the cache" : <num>,
    "bytes currently in the cache" : <num>,
    "tracked bytes belonging to leaf pages in the cache" : <num>,
    "maximum bytes configured" : <num>,
    "tracked bytes belonging to overflow pages in the cache" : <num>,
    "bytes read into cache" : <num>,
    "bytes written from cache" : <num>,
    "pages evicted by application threads" : <num>,
    "checkpoint blocked page eviction" : <num>,
    "unmodified pages evicted" : <num>,
    "page split during eviction deepened the tree" : <num>,
    "modified pages evicted" : <num>,
    "pages selected for eviction unable to be evicted" : <num>,
    "pages evicted because they exceeded the in-memory maximum" : <num>,
    "pages evicted because they had chains of deleted items" : <num>,
    "failed eviction of pages that exceeded the in-memory maximum" : <num>,
    "hazard pointer blocked page eviction" : <num>,
    "internal pages evicted" : <num>,
    "maximum page size at eviction" : <num>,
    "eviction server candidate queue empty when topping up" : <num>,
    "eviction server candidate queue not empty when topping up" : <num>,
    "eviction server evicting pages" : <num>,
    "eviction server populating queue, but not evicting pages" : <num>,
    "eviction server unable to reach eviction goal" : <num>,
    "internal pages split during eviction" : <num>,
    "leaf pages split during eviction" : <num>,
    "pages walked for eviction" : <num>,
    "eviction worker thread evicting pages" : <num>,
    "in-memory page splits" : <num>,
    "in-memory page passed criteria to be split" : <num>,
    "lookaside table insert calls" : <num>,
    "lookaside table remove calls" : <num>,
    "percentage overhead" : <num>,
    "tracked dirty pages in the cache" : <num>,
    "pages currently held in the cache" : <num>,
    "pages read into cache" : <num>,
    "pages read into cache requiring lookaside entries" : <num>,
    "pages written from cache" : <num>,
    "page written requiring lookaside records" : <num>,
    "pages written requiring in-memory restoration" : <num>
}

这里有很多数据，但我们可以重点关注以下几个领域：

已配置的wiredTiger.cache.maximum bytes：这是最大缓存大小。
WiredTiger.cache.bytes 当前在缓存中——这是当前缓存中数据的大小。这不应大于 maximum bytes configured.
WiredTiger.cache.tracked 缓存中的脏字节——这是缓存中脏数据的大小。此值应小于 缓存值中当前的字节数。

查看这些值，我们可以确定是否需要增加实例的缓存大小。此外，我们可以查看读入高速缓存的wiredTiger.cache.bytes值以用于读取繁重的应用程序。如果此值一直很高，则增加缓存大小可能会提高整体读取性能。

如何防止主数据库因重新同步而关闭？

根据此处的 MongoDB 博客文档，可能存在主要无法访问的情况。当一个主节点不与集合中的其他成员通信超过10 seconds时，符合条件的辅助节点将举行选举以选举自己为新的主节点。举行选举并获得多数成员选票的第一个中学成为小学。尽管时间有所不同，但该failover过程通常在一分钟内完成。例如，10-30 seconds副本集的成员可能需要声明主节点不可访问。剩下的一个次要举行选举，将自己选为new primary. 选举本身可能需要另一个10-30 seconds. 在选举过程中，副本集没有主副本，无法接受写入，所有剩余成员都变为只读。

为了进一步参考这里，这里和这里

Mani · Answer 2 · 2019-03-28T10:35:14+08:00

因此，每当辅助成员变得陈旧并且远远落后于主要 oplog 和被覆盖的 oplog 条目时，mongod 将通过删除其数据并执行初始同步来完全重新同步过时的成员。

根据 MongoDB 文档，

执行初始同步时，MongoDB：

克隆除本地数据库之外的所有数据库。为了克隆，mongod 扫描每个源数据库中的每个集合，并将所有数据插入到它自己的这些集合的副本中。

在 3.4 版更改：初始同步会在为每个集合复制文档时构建所有集合索引。在早期版本的 MongoDB 中，此阶段仅构建 _id 索引。

在 3.4 版更改: 初始同步在数据复制期间拉取新添加的 oplog 记录。确保目标成员在本地数据库中有足够的磁盘空间，以便在此数据复制阶段期间临时存储这些 oplog 记录。

将所有更改应用于数据集。使用来自源的 oplog，mongod 更新其数据集以反映副本集的当前状态。

初始同步完成后，成员从 STARTUP2 转换为 SECONDARY。

在您的情况下，主要需要使用过度使用的 300 个集合。mongodb 还建议使用以下重新同步选项。

MongoDB 提供了两个用于执行初始同步的选项：

使用空数据目录重启 mongod，让 MongoDB 正常的初始同步功能恢复数据。这是更简单的选项，但替换数据可能需要更长时间。

请参阅自动同步成员。

使用来自副本集中另一个成员的最近数据目录的副本重新启动机器。此过程可以更快地替换数据，但需要更多手动步骤。

请参阅通过从其他成员复制数据文件进行同步。

Mongodb 在副本重新同步期间消耗了太多 RAM

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

Mongodb 在副本重新同步期间消耗了太多 RAM

2 个回答

相关问题