AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / user-457727

dotokija's questions

Martin Hope
dotokija
Asked: 2024-08-02 16:51:35 +0800 CST

Ceph Crush 多房间/机架设置规则说明

  • 6

我最近开始使用 ceph,继承了 1 个大型集群进行维护,现在正在构建恢复集群。通过反复尝试和失败,我设法创建了符合我的目的的 Crush 规则,但未能理解 Crush 规则定义的语法。有人可以解释一下吗(不要引用 ceph 文档,因为他们没有解释这一点)?
这是我的生产集群设置:
20 台主机分布在 2 个房间,每个房间有 2 个机架,每个机架有 5 个服务器,每个主机有 10 个 OSD,总共有 200 个 OSD。
有人想要超级安全的设置,所以复制是 2/4,规则(据说)定义为复制到其他房间,每个机架有 2 个副本,每个对象总共有 4 个副本。规则如下:

rule replicated_nvme {
    id 4
    type replicated
    min_size 1
    max_size 100
    step take default class nvme
    step choose firstn 0 type room
    step choose firstn 2 type rack
    step chooseleaf firstn 1 type host
    step emit
}

在我的新集群中,我的设置较小,因此只有 2 个机架,每个机架有 2 个服务器用于测试。我尝试了以下方法,与上述方法类似,但没有空间:

rule replicated-nvme {
    id 6
    type replicated
    step take default class nvme
    step choose firstn 0 type rack
    step chooseleaf firstn 1 type host
    step emit
}

但是,这并没有产生预期的结果(使用 2/4 副本,应该复制到其他机架,每个副本复制到不同的服务器)。我得到的是不同机架中的服务器中有 2 个副本,并且没有创建 2 个额外的副本。我从 ceph 获得以下信息:

pgs:     4/8 objects degraded (50.000%)
             1 active+undersized+degraded

我发现只使用了 2 个 OSD,而不是 4 个!

所以,我玩了一下,然后改成了这样:

rule replicated-nvme {
    id 6
    type replicated
    step take default class nvme
    step choose firstn 0 type rack
    step chooseleaf firstn 0 type host
    step emit
}

并且它工作正常。池 PG 被复制到 2 个机架上的 4 个 OSD(每个机架 2 个 OSD)。唯一的区别是chooseleaf firstn 0 type host而不是chooseleaf firstn 1 type host。

问题是:

  • choose和有什么区别chooseleaf
  • 后面的数字是什么意思firstn
  • 如何定义步骤的层次结构,之前检查什么,之后检查什么?

简而言之,我想知道 Crush 规则的语法。
仅供澄清,尽管生产集群每个房间/机架的主机数量均等,复制规则也均等,但对象分布并不是非常均匀。即每个 OSD 的 PG 分布可能相差高达 10%。
我怀疑上面定义的第一条规则是错误的,仅凭大量的 OSD 分布就大致相等。

ceph
  • 1 个回答
  • 19 Views

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    模块 i915 可能缺少固件 /lib/firmware/i915/*

    • 3 个回答
  • Marko Smith

    无法获取 jessie backports 存储库

    • 4 个回答
  • Marko Smith

    如何将 GPG 私钥和公钥导出到文件

    • 4 个回答
  • Marko Smith

    我们如何运行存储在变量中的命令?

    • 5 个回答
  • Marko Smith

    如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域?

    • 3 个回答
  • Marko Smith

    dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

    • 2 个回答
  • Marko Smith

    如何从 systemctl 服务日志中查看最新的 x 行

    • 5 个回答
  • Marko Smith

    Nano - 跳转到文件末尾

    • 8 个回答
  • Marko Smith

    grub 错误:你需要先加载内核

    • 4 个回答
  • Marko Smith

    如何下载软件包而不是使用 apt-get 命令安装它?

    • 7 个回答
  • Martin Hope
    user12345 无法获取 jessie backports 存储库 2019-03-27 04:39:28 +0800 CST
  • Martin Hope
    Carl 为什么大多数 systemd 示例都包含 WantedBy=multi-user.target? 2019-03-15 11:49:25 +0800 CST
  • Martin Hope
    rocky 如何将 GPG 私钥和公钥导出到文件 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Evan Carroll systemctl 状态显示:“状态:降级” 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim 我们如何运行存储在变量中的命令? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S 为什么 /dev/null 是一个文件?为什么它的功能不作为一个简单的程序来实现? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 如何从 systemctl 服务日志中查看最新的 x 行 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - 跳转到文件末尾 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla 为什么真假这么大? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis 在一个巨大的(70GB)、一行、文本文件中替换字符串 2017-12-30 06:58:33 +0800 CST

热门标签

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve