AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / server / 问题 / 1007160
Accepted
ALchEmiXt
ALchEmiXt
Asked: 2020-03-17 13:41:40 +0800 CST2020-03-17 13:41:40 +0800 CST 2020-03-17 13:41:40 +0800 CST

ZFS:编辑 ubuntu 上失败池的 zpool 驱动器顺序

  • 772

我对到底发生了什么以及如何在 Ubuntu 18.04 上进行最近扩展的 zfs 配置有点迷茫。

我有一台使用 ZFS 运行多年的存储服务器,其中有 2 个池,每个池包含 10 多个驱动器。一切都很好,直到......我们决定通过添加一个包含 10 个磁盘的新 vdev 来扩展一个池。插上后一切正常。这就是我添加设备所做的(我现在知道我应该在磁盘上按 id 完成 :-( ):

~$ sudo modprobe zfs
~$ dmesg|grep ZFS
[   17.948569] ZFS: Loaded module v0.6.5.6-0ubuntu26, ZFS pool version 5000, ZFS filesystem version 5
~$ lsscsi
[0:0:0:0]    disk    HGST     HUS724020ALS640  A1C4  /dev/sda
[0:0:1:0]    disk    HGST     HUS724020ALS640  A1C4  /dev/sdb
[0:0:2:0]    disk    HGST     HUS726040AL5210  A7J0  /dev/sdc
[0:0:3:0]    enclosu LSI      SAS2X28          0e12  -
[1:0:0:0]    disk    HGST     HUS726040AL5210  A7J0  /dev/sdd
[1:0:1:0]    disk    HGST     HUS726040AL5210  A7J0  /dev/sde
[1:0:2:0]    disk    HGST     HUS726040AL5210  A7J0  /dev/sdf
[1:0:3:0]    disk    HGST     HUS726040AL5210  A7J0  /dev/sdg
[1:0:4:0]    disk    HGST     HUS726040AL5210  A7J0  /dev/sdh
[1:0:5:0]    disk    HGST     HUS726040AL5210  A7J0  /dev/sdi
[1:0:6:0]    disk    HGST     HUS726040AL5210  A7J0  /dev/sdj
[1:0:7:0]    disk    HGST     HUS726040AL5210  A7J0  /dev/sdk
[1:0:8:0]    disk    HGST     HUS726040AL5210  A7J0  /dev/sdl
[1:0:9:0]    disk    HGST     HUS726040AL5210  A7J0  /dev/sdm
[1:0:10:0]   disk    HGST     HUS726040AL5210  A7J0  /dev/sdn
[1:0:11:0]   disk    HGST     HUS726040AL5210  A7J0  /dev/sdo
[1:0:12:0]   disk    HGST     HUS726040AL5210  A7J0  /dev/sdp
[1:0:13:0]   disk    HGST     HUS726040AL5210  A7J0  /dev/sdq
[1:0:14:0]   disk    HGST     HUS726040AL5210  A7J0  /dev/sdr
[1:0:15:0]   disk    HGST     HUS726060AL5210  A519  /dev/sds
[1:0:16:0]   disk    HGST     HUS726040AL5210  A7J0  /dev/sdt
[1:0:17:0]   disk    HGST     HUS726040AL5210  A7J0  /dev/sdu
[1:0:18:0]   disk    HGST     HUS726040AL5210  A7J0  /dev/sdv
[1:0:19:0]   disk    HGST     HUS726040AL5210  A7J0  /dev/sdw
[1:0:20:0]   disk    HGST     HUS726040AL5210  A7J0  /dev/sdx
[1:0:21:0]   disk    HGST     HUS726040AL5210  A7J0  /dev/sdy
[1:0:22:0]   disk    HGST     HUS726040AL5210  A7J0  /dev/sdz
[1:0:23:0]   disk    HGST     HUS726040AL5210  A7J0  /dev/sdaa
[1:0:24:0]   enclosu LSI CORP SAS2X36          0717  -
[1:0:25:0]   disk    HGST     HUS726040AL5210  A7J0  /dev/sdab
[1:0:26:0]   enclosu LSI CORP SAS2X36          0717  -
[1:0:27:0]   disk    HGST     HUH721010AL4200  A384  /dev/sdac      ===>from here below the new plugged disks
[1:0:28:0]   disk    HGST     HUH721010AL4200  A384  /dev/sdad
[1:0:30:0]   disk    HGST     HUH721010AL4200  A384  /dev/sdae
[1:0:31:0]   disk    HGST     HUH721010AL4200  A384  /dev/sdaf
[1:0:32:0]   disk    HGST     HUH721010AL4200  A384  /dev/sdag
[1:0:33:0]   disk    HGST     HUH721010AL4200  A384  /dev/sdah
[1:0:34:0]   disk    HGST     HUH721010AL4200  A384  /dev/sdai
[1:0:35:0]   disk    HGST     HUH721010AL4200  A384  /dev/sdaj
[1:0:36:0]   disk    HGST     HUH721010AL4200  A384  /dev/sdak
[1:0:37:0]   disk    HGST     HUH721010AL4200  A384  /dev/sdal

接下来,我将驱动器作为新的 raidz2 vdev 添加到现有的存档池中。之后似乎运行顺利:

~$ sudo zpool add -f archive raidz2 sdac sdad sdae sdaf sdag sdah sdai sdaj sdak sdal
~$ sudo zpool status
  pool: archive
state: ONLINE
  scan: scrub repaired 0 in 17h18m with 0 errors on Sun Dec  8 17:42:17 2019
config:
        NAME                        STATE     READ WRITE CKSUM
        archive                     ONLINE       0     0     0
          raidz2-0                  ONLINE       0     0     0
            scsi-35000cca24311c340  ONLINE       0     0     0
            scsi-35000cca24311ecbc  ONLINE       0     0     0
            scsi-35000cca24d019248  ONLINE       0     0     0
            scsi-35000cca24311e30c  ONLINE       0     0     0
            scsi-35000cca243113ab0  ONLINE       0     0     0
            scsi-35000cca24311c188  ONLINE       0     0     0
            scsi-35000cca24311e7c8  ONLINE       0     0     0
            scsi-35000cca24311e3f0  ONLINE       0     0     0
            scsi-35000cca24311e7bc  ONLINE       0     0     0
            scsi-35000cca24311e40c  ONLINE       0     0     0
            scsi-35000cca243118054  ONLINE       0     0     0
            scsi-35000cca243115cb8  ONLINE       0     0     0
          raidz2-1                  ONLINE       0     0     0
            sdac                    ONLINE       0     0     0
            sdad                    ONLINE       0     0     0
            sdae                    ONLINE       0     0     0
            sdaf                    ONLINE       0     0     0
            sdag                    ONLINE       0     0     0
            sdah                    ONLINE       0     0     0
            sdai                    ONLINE       0     0     0
            sdaj                    ONLINE       0     0     0
            sdak                    ONLINE       0     0     0
            sdal                    ONLINE       0     0     0

errors: No known data errors

  pool: scratch
state: ONLINE
  scan: scrub repaired 0 in 9h8m with 0 errors on Sun Dec  8 09:32:15 2019
config:
        NAME                        STATE     READ WRITE CKSUM
        scratch                     ONLINE       0     0     0
          raidz2-0                  ONLINE       0     0     0
            scsi-35000cca24311e2e8  ONLINE       0     0     0
            scsi-35000cca24311e858  ONLINE       0     0     0
            scsi-35000cca24311ea5c  ONLINE       0     0     0
            scsi-35000cca24311c344  ONLINE       0     0     0
            scsi-35000cca24311e7ec  ONLINE       0     0     0
            scsi-35000cca24311bcb8  ONLINE       0     0     0
            scsi-35000cca24311e8a8  ONLINE       0     0     0
            scsi-35000cca2440b4f98  ONLINE       0     0     0
            scsi-35000cca24311e8f0  ONLINE       0     0     0
            scsi-35000cca2440b4ff0  ONLINE       0     0     0
            scsi-35000cca243113e30  ONLINE       0     0     0
            scsi-35000cca24311e9b4  ONLINE       0     0     0
            scsi-35000cca243137e80  ONLINE       0     0     0

errors: No known data errors

但是,重新启动很可能会打乱磁盘驱动器的顺序(设备分配;不确定是否很难,但似乎很可能)。至少这是我在阅读了许多文档和问题后所能理解的。目前的状态如下。暂存池工作正常。存档池不是:

~$ sudo zpool status -v
  pool: archive
state: UNAVAIL
status: One or more devices could not be used because the label is missing
or invalid.  There are insufficient replicas for the pool to continue
functioning.
action: Destroy and re-create the pool from
a backup source.
  see: http://zfsonlinux.org/msg/ZFS-8000-5E
  scan: none requested
config:

NAME                        STATE    READ WRITE CKSUM
archive                    UNAVAIL      0    0    0  insufficient replicas
  raidz2-0                  ONLINE      0    0    0
    scsi-35000cca24311c340  ONLINE      0    0    0
    scsi-35000cca24311ecbc  ONLINE      0    0    0
    scsi-35000cca24d019248  ONLINE      0    0    0
    scsi-35000cca24311e30c  ONLINE      0    0    0
    scsi-35000cca243113ab0  ONLINE      0    0    0
    scsi-35000cca24311c188  ONLINE      0    0    0
    scsi-35000cca24311e7c8  ONLINE      0    0    0
    scsi-35000cca24311e3f0  ONLINE      0    0    0
    scsi-35000cca24311e7bc  ONLINE      0    0    0
    scsi-35000cca24311e40c  ONLINE      0    0    0
    scsi-35000cca243118054  ONLINE      0    0    0
    scsi-35000cca243115cb8  ONLINE      0    0    0
  raidz2-1                  UNAVAIL      0    0    0  insufficient replicas
    sdac                    FAULTED      0    0    0  corrupted data
    sdad                    FAULTED      0    0    0  corrupted data
    sdae                    FAULTED      0    0    0  corrupted data
    sdaf                    FAULTED      0    0    0  corrupted data
    sdag                    FAULTED      0    0    0  corrupted data
    sdah                    FAULTED      0    0    0  corrupted data
    sdai                    FAULTED      0    0    0  corrupted data
    sdaj                    FAULTED      0    0    0  corrupted data
    sdak                    FAULTED      0    0    0  corrupted data
    sdal                    FAULTED      0    0    0  corrupted data

  pool: scratch
state: ONLINE
  scan: scrub repaired 0 in 16h36m with 0 errors on Sun Feb  9 17:00:25 2020
config:

NAME                        STATE    READ WRITE CKSUM
scratch                    ONLINE      0    0    0
  raidz2-0                  ONLINE      0    0    0
    scsi-35000cca24311e2e8  ONLINE      0    0    0
    scsi-35000cca24311e858  ONLINE      0    0    0
    scsi-35000cca24311ea5c  ONLINE      0    0    0
    scsi-35000cca24311c344  ONLINE      0    0    0
    scsi-35000cca24311e7ec  ONLINE      0    0    0
    scsi-35000cca24311bcb8  ONLINE      0    0    0
    scsi-35000cca24311e8a8  ONLINE      0    0    0
    scsi-35000cca2440b4f98  ONLINE      0    0    0
    scsi-35000cca24311e8f0  ONLINE      0    0    0
    scsi-35000cca2440b4ff0  ONLINE      0    0    0
    scsi-35000cca243113e30  ONLINE      0    0    0
    scsi-35000cca24311e9b4  ONLINE      0    0    0
    scsi-35000cca243137e80  ONLINE      0    0    0

errors: No known data errors

我尝试了 zpool 导出存档(也使用 -f),但它抱怨缺少设备。

~$ sudo zpool export -f archive
cannot export 'archive': one or more devices is currently unavailable

显然导入也失败了......

还有什么可以尝试的?我简直不敢相信“简单”的磁盘重新排序会弄乱存档池中的所有数据。

编辑 3 月 23 日

问题确实是驱动顺序发生了变化。
如果我在池上运行 zdb,它会显示存储在标签中的所有信息,并且大型新磁盘被错误的 /dev/sdxx 设备引用。我通过列出驱动器的 guid 以及实际分配的 /dev/sdxx 设备及其 ID 来确定这一点。它给了我下面的映射:

老开发者和当前开发者的映射表

但是如何解决这个问题。理论上,将更正的 zdb 数据重写到磁盘应该可以解决这个问题。

zfs ubuntu-18.04 pool raidz
  • 1 1 个回答
  • 244 Views

1 个回答

  • Voted
  1. Best Answer
    ALchEmiXt
    2020-04-08T05:05:09+08:002020-04-08T05:05:09+08:00

    好吧,我又开心了。我能够解决/修复重新洗牌的磁盘问题!发布此答案作为同一条船上某人的参考。

    请注意,这是高风险的工作,仅适用于胆小的人!遵循这些说明,风险自负,并为系统的完全故障做好准备!

    简而言之,我是如何针对我们的情况进行修复的;

    1) 检索故障池的 ORIGINAL 驱动器路径布局 ( zdb)

    2) 将原始和当前磁盘/分区ID 映射到路径映射,即fdisk列出所有分区和设备。

    3a) mv/dev/sdxx 设备和分区到原始范围之外的临时范围(在 1 处)

    3b)mv从 TEMPORARY 范围到 ORIGINAL 布局的设备

    4) 池被识别(直到重新启动!),您可以移动/复制您的数据。

    5)在拯救数据后,我从池中删除了所有磁盘并销毁了该池。仅在重新启动后重建池(注意移动的设备名称)。

    我将在下面每点发布一些细节(全部使用 sudo 或 as su);

    1)zdb 这将返回每个池的 zdb 驱动器和分区标签的长转储。为受影响的故障池中的孩子找到这对引导和路径。在我的例子中:

    guid: 16862548186473937209
    path: '/dev/sdac1'
    

    2) 创建一个 CURRENT 和 ORIGINAL ID 到路径的映射列表。这允许将当前设备/分区路径重命名为原始布局(非其他原始设备当前由故障池中不存在的另一个新驱动器使用!)请参阅上面我的问题更新中的映射!关联

    3) 移动/重命名设备;示例首先 CURRENT 名称到高 TEMPORARY 范围,然后从 TEMPORARY 范围到 ORIGINAL 布局。我制作了一个 bash 脚本来快速处理它,并允许双重检查和半自动生成“脚本”。例子;

    #!/bin/bash
    
    # move CURRENT TO TEMPORARY
    mv /dev/sdac /dev/sdap
    mv /dev/sdad /dev/sdaq
    mv /dev/sdae /dev/sdar
    mv /dev/sdaf /dev/sdas
    mv /dev/sdag /dev/sdat
    mv /dev/sdah /dev/sdau
    mv /dev/sdai /dev/sdav
    mv /dev/sdaj /dev/sdaw
    mv /dev/sdak /dev/sdax
    mv /dev/sdal /dev/sday
    mv /dev/sdac1 /dev/sdap1
    mv /dev/sdad1 /dev/sdaq1
    mv /dev/sdae1 /dev/sdar1
    mv /dev/sdaf1 /dev/sdas1
    mv /dev/sdag1 /dev/sdat1
    mv /dev/sdah1 /dev/sdau1
    mv /dev/sdai1 /dev/sdav1
    mv /dev/sdaj1 /dev/sdaw1
    mv /dev/sdak1 /dev/sdax1
    mv /dev/sdal1 /dev/sday1
    mv /dev/sdac9 /dev/sdap9
    mv /dev/sdad9 /dev/sdaq9
    mv /dev/sdae9 /dev/sdar9
    mv /dev/sdaf9 /dev/sdas9
    mv /dev/sdag9 /dev/sdat9
    mv /dev/sdah9 /dev/sdau9
    mv /dev/sdai9 /dev/sdav9
    mv /dev/sdaj9 /dev/sdaw9
    mv /dev/sdak9 /dev/sdax9
    mv /dev/sdal9 /dev/sday9
    
    #final move TEMPORARY to ORIGINAL = new CURRENT
    mv /dev/sdap /dev/sdai
    mv /dev/sdaq /dev/sdaj
    mv /dev/sdar /dev/sdak
    mv /dev/sdas /dev/sdal
    mv /dev/sdat /dev/sdah
    mv /dev/sdau /dev/sdag
    mv /dev/sdav /dev/sdaf
    mv /dev/sdaw /dev/sdae
    mv /dev/sdax /dev/sdad
    mv /dev/sday /dev/sdac
    mv /dev/sdap1 /dev/sdai1
    mv /dev/sdaq1 /dev/sdaj1
    mv /dev/sdar1 /dev/sdak1
    mv /dev/sdas1 /dev/sdal1
    mv /dev/sdat1 /dev/sdah1
    mv /dev/sdau1 /dev/sdag1
    mv /dev/sdav1 /dev/sdaf1
    mv /dev/sdaw1 /dev/sdae1
    mv /dev/sdax1 /dev/sdad1
    mv /dev/sday1 /dev/sdac1
    mv /dev/sdap9 /dev/sdai9
    mv /dev/sdaq9 /dev/sdaj9
    mv /dev/sdar9 /dev/sdak9
    mv /dev/sdas9 /dev/sdal9
    mv /dev/sdat9 /dev/sdah9
    mv /dev/sdau9 /dev/sdag9
    mv /dev/sdav9 /dev/sdaf9
    mv /dev/sdaw9 /dev/sdae9
    mv /dev/sdax9 /dev/sdad9
    mv /dev/sday9 /dev/sdac9
    

    4 和 5) 抢救数据后继续重建。有很多工具和好的教程展示了导出池以及销毁和重建它的最佳实践(确保使用标识符而不是路径的磁盘来重建它 :-D )。

    • 0

相关问题

  • 从现有目录创建 zfs 的正确方法?

  • 如何将 ZFS ACL 从一个文件克隆到另一个文件?

  • ZFS 在演示期间在舞台上失败。这是正常行为吗?

  • Sneakernet 作为备份策略有意义吗?

  • ZFS 与 XFS

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    新安装后 postgres 的默认超级用户用户名/密码是什么?

    • 5 个回答
  • Marko Smith

    SFTP 使用什么端口?

    • 6 个回答
  • Marko Smith

    命令行列出 Windows Active Directory 组中的用户?

    • 9 个回答
  • Marko Smith

    什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同?

    • 3 个回答
  • Marko Smith

    如何确定bash变量是否为空?

    • 15 个回答
  • Martin Hope
    Tom Feiner 如何按大小对 du -h 输出进行排序 2009-02-26 05:42:42 +0800 CST
  • Martin Hope
    Noah Goodrich 什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同? 2009-05-19 18:24:42 +0800 CST
  • Martin Hope
    Brent 如何确定bash变量是否为空? 2009-05-13 09:54:48 +0800 CST
  • Martin Hope
    cletus 您如何找到在 Windows 中打开文件的进程? 2009-05-01 16:47:16 +0800 CST

热门标签

linux nginx windows networking ubuntu domain-name-system amazon-web-services active-directory apache-2.4 ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve