我最近开始使用 ceph,继承了 1 个大型集群进行维护,现在正在构建恢复集群。通过反复尝试和失败,我设法创建了符合我的目的的 Crush 规则,但未能理解 Crush 规则定义的语法。有人可以解释一下吗(不要引用 ceph 文档,因为他们没有解释这一点)?
这是我的生产集群设置:
20 台主机分布在 2 个房间,每个房间有 2 个机架,每个机架有 5 个服务器,每个主机有 10 个 OSD,总共有 200 个 OSD。
有人想要超级安全的设置,所以复制是 2/4,规则(据说)定义为复制到其他房间,每个机架有 2 个副本,每个对象总共有 4 个副本。规则如下:
rule replicated_nvme {
id 4
type replicated
min_size 1
max_size 100
step take default class nvme
step choose firstn 0 type room
step choose firstn 2 type rack
step chooseleaf firstn 1 type host
step emit
}
在我的新集群中,我的设置较小,因此只有 2 个机架,每个机架有 2 个服务器用于测试。我尝试了以下方法,与上述方法类似,但没有空间:
rule replicated-nvme {
id 6
type replicated
step take default class nvme
step choose firstn 0 type rack
step chooseleaf firstn 1 type host
step emit
}
但是,这并没有产生预期的结果(使用 2/4 副本,应该复制到其他机架,每个副本复制到不同的服务器)。我得到的是不同机架中的服务器中有 2 个副本,并且没有创建 2 个额外的副本。我从 ceph 获得以下信息:
pgs: 4/8 objects degraded (50.000%)
1 active+undersized+degraded
我发现只使用了 2 个 OSD,而不是 4 个!
所以,我玩了一下,然后改成了这样:
rule replicated-nvme {
id 6
type replicated
step take default class nvme
step choose firstn 0 type rack
step chooseleaf firstn 0 type host
step emit
}
并且它工作正常。池 PG 被复制到 2 个机架上的 4 个 OSD(每个机架 2 个 OSD)。唯一的区别是chooseleaf firstn 0 type host
而不是chooseleaf firstn 1 type host
。
问题是:
choose
和有什么区别chooseleaf
- 后面的数字是什么意思
firstn
- 如何定义步骤的层次结构,之前检查什么,之后检查什么?
简而言之,我想知道 Crush 规则的语法。
仅供澄清,尽管生产集群每个房间/机架的主机数量均等,复制规则也均等,但对象分布并不是非常均匀。即每个 OSD 的 PG 分布可能相差高达 10%。
我怀疑上面定义的第一条规则是错误的,仅凭大量的 OSD 分布就大致相等。
文档对选项的说明非常清楚,不知道您的抱怨是什么。无论如何,我会根据您的示例尝试将其分解:
ceph osd tree
如果您只有一个根目录,请仅选择“nvme”类型的设备。如果您想要更具体,您可以将 0 替换为您希望 crush 选择的存储桶的确切数量,例如这也应该有效,总共有 4 个副本,分布在两个机架上:
层次结构从上到下。您还可以使用 crushtool 。如果您想在不修改当前 crushmap 的情况下测试分布情况(这可能会导致意外的数据移动),那么它可能非常有用。集群的数据分布取决于几个因素,在这方面应用的规则并不重要,平衡器是否已启用?
ceph balancer status
显示当前状态。每个 OSD 的 PG 数量也很重要,如果您的 PG 很大,而您只有少数几个,则数据无法均匀分布。