关于【disaster-recovery】的问题- 第1页

adamsfamily

Asked: 2021-06-28 05:27:44 +0800 CST

一个故障驱动器 + 一个坏扇区是否会破坏整个 RAID 5？

8

在规划 Synology Disk Station 上的 RAID 设置期间，我阅读了大量有关各种 RAID 类型的资料，这是一本很好的阅读资料：RAID 级别和URE（不可恢复的读取错误）的重要性。

但是，我还不清楚一件事：

让我们有两个场景：

阵列是2 个驱动器的RAID 1
阵列是3 个驱动器的RAID 5

两种情况的假设相同：

让我们在 RAID 阵列上有 100.000 个文件
一个驱动器发生故障（需要更换）
在重建阵列期间恰好有一个坏扇区 (URE)

怎么了？RAID 重建是否有 99.999 个文件正常且 1 个文件丢失？还是我会丢失所有 100.000 个文件？

如果答案需要了解文件系统类型，假设文件系统是 BTRFS 或 ZFS。

Mikhail T.

Asked: 2021-04-22 07:23:49 +0800 CST

Systemd 和灾难恢复备用系统

2

我们使用 systemd 在生产环境中运行各种服务。（呃……）

我们正在构建一个匹配的“灾难恢复”站点，该站点将安装相同的应用程序——使用相同的 systemd-units 以在发生灾难时启动其各种组件。

这种 DR 环境是“热的”，准备在短时间内接管（越短越好）——从而成为生产本身。然后，当“灾难”解决后，另一个环境将成为 DR。

我的问题是，如何让这些 systemd-services 准备好启动，但直到某个条件变为真才真正启动？

为了得出结论，特定站点当前是主要站点（生产），命令 ( amIthePrimary) 需要运行并以 0 退出代码退出。检查既简单又快速——可以每分钟执行一次。但是，因为它需要运行命令，所以 systemd 没有Condition提供它。

我是否将该命令放入每个单元的 ExecPre中，或者这会成为一个嘈杂的错误，不必要地惹恼管理员？我是否将其与所有其他服务一起放入一个独立的单元中Require？

另外，一旦条件为真——服务启动——我如何继续检查它，所以它们都将关闭，它是否应该再次变为假？

Aleksandar Stojadinovic

Asked: 2020-12-19 08:33:14 +0800 CST

在 Azure 上删除托管增量快照是否安全？

1

Azure 上托管磁盘的增量快照是一个相对较新的事物，并且没有完整记录，所以我有一个关键问题：

如果我有磁盘的增量快照 A、B、C 和 D（第一个是显式完整快照），并且 D 具有最新状态，那么在不丢失数据的情况下删除快照 B 和 C 是否安全？通过这个，我正在考虑两种情况：

从增量快照 D 恢复/创建新的托管磁盘？所有的变化都会与最新的“真实”状态保持一致吗？
复制到新区域。文档中的多个地方都在吹捧这些增量快照允许部分复制到另一个区域或存储帐户，因此可以实现自定义灾难恢复，而无需复制支持托管快照的整个 blob。我试过了，它可以工作，但如果中间快照（我的例子中的 B 和 C）被删除，这仍然可能吗？

在 AWS 上这是正常的，因为在 AWS 上删除增量快照只会删除该特定快照中存在的数据，以后不再引用。

Fuseteam

Asked: 2020-10-16 06:39:26 +0800 CST

ifupdown2 start job 阻止 promox 完全启动

0

我有一个安装了 ifupdown2 的 promox 服务器。最近，当尝试重新启动整个服务器时，promox 无法进入控制台，它卡在复制运行器失败并且 ifupdown2 服务没有启动。

我已经获得了使用实时 ubuntu usb 访问服务器硬件的权限，并且我能够使用 lsblk 查看我的虚拟机。正如我发现的那样，vms 在一个瘦 lvm 中

有没有办法删除 ifupdown2 启动作业，或者完全删除 ifupdown2

katyn12

Asked: 2017-02-21 08:05:26 +0800 CST

如何在两个站点之间配置没有共享存储的延伸集群？

7

我正在尝试重新设计我们的 IT 基础架构，并在为我们公司实施 DR 解决方案方面寻求帮助。

我将其视为具有数据复制的主动-被动模式下的 2 个数据中心。目前，我们在主站点有两个 Windows Server 2016，在 DR 位置有一个 Windows 服务器。

在我们有 1Gb 网络连接的站点之间，但我不确定延迟。所以我只是想知道是否可以配置某种存储复制以确保这两个站点可以使用数据？

现在我倾向于使用存储副本的延伸集群，但看起来我需要为我的 DR 站点获取一个额外的节点来实现它。

那么有人可以指出我正确的方向吗？

brendan

Asked: 2016-09-08 00:04:04 +0800 CST

从 1TB 快照创建新的 EBS 卷需要多长时间？

3

我正在定期拍摄 1TB EBS（亚马逊网络服务弹性块存储）卷的快照作为备份。在整个 AZ（可用区）变得不可用的情况下，我的灾难恢复计划是从同一区域的另一个 AZ 中的最新快照创建一个新的 EBS 卷。

如何确定创建新 EBS 卷需要多长时间？我的 RTO（恢复时间目标）为 6 小时。我可以用这种方法来满足它吗？

它可能不应该/没有任何区别，但我在 ap-southeast-2 地区（即悉尼）。

Groo

Asked: 2016-07-31 04:38:40 +0800 CST

用于数据文件的数据库服务器与 NAS

0

关于硬件故障时的成本和维护速度/简单性，将 SQL 数据文件保存在与 SQL Server 实例分开的 NAS 服务器上是否有意义？我们的应用程序存储来自许多设备的大量测量值（时间序列），因此数据量相对较大，无法保存在相对较小的 SAS 服务器磁盘（每月约 200GB）上。

尽管通过以太网访问文件的风险更大（即使只有 db 服务器和 NAS 在同一个交换机上），但将数据文件完全分开似乎可以简化由于耦合较低而导致硬件问题的事情 - 数据库服务器可以简单得多（我可以快速迁移简单的镜像，它甚至可以与应用服务器捆绑用于所有更简单的应用程序），修复 NAS 故障也应该主要涉及切换磁盘，或者在发生故障时切换到副本。

是否有一些更好（成本效益和应用速度更快）的方法来管理快速迁移，以防发生不涉及分离数据文件的故障，或者这个想法不是那么成问题吗？

KOGI

Asked: 2016-06-03 11:10:22 +0800 CST

无法让我的 RAID 阵列退出降级模式

3

我有一个刚刚发生驱动器故障的 4 驱动器 RAID 10 阵列。我无知地从来没有练习过如何从故障中恢复（我是一名程序员，只是把这个服务器作为一个爱好者）所以我现在必须努力学习这一点。

我通过谷歌和这个网站（谢谢你们！）设法弄清楚如何失败，删除，添加和重新同步新驱动器，但它在重新同步过程中不断失败，只是将新磁盘标记为备用磁盘。

通过更多的谷歌搜索和更多的命令行功能，我发现剩余的“好”驱动器实际上有一些坏扇区在同步期间产生读取错误，因此 mdadm 正在中止并标记为备用。

我曾经badblocks确认坏扇区的存在（似乎很多），但我不知道这些扇区是否真的在使用（到目前为止，我还没有注意到任何损坏的数据）。我也读过它fsck可能会修复这些数据，但我也读过它也有可能完全修复驱动器。因此，我还没有尝试过。

我尝试使用 mdadm 的--force标志在重新同步期间忽略这些错误，但它似乎根本没有帮助。

我已经备份了所有关键数据，但是如果可以避免的话，我真的不想丢失大量非关键数据（它们都是可替换的，但需要很长时间）。此外，我的关键备份都在云中，因此即使恢复这些备份虽然简单，但也非常耗时。

此外，如果需要，我手头还有一个未使用的新替换驱动器。

以下是我知道要提供的有关系统的所有信息。如果您需要更多，请告诉我！如何完全重建这个阵列？

驱动器布局

sda+ sdb= RAID1A ( md126)

sdc+ sdd= RAID1B ( md127)

md126+ md127= RAID10 ( md125)

问题阵列是md126，新的未同步驱动器是sdb，问题驱动器是sda

`root@vault:~# cat /proc/mdstat`

Personalities : [raid1] [raid0] [linear] [multipath] [raid6] [raid5] [raid4] [raid10]
md125 : active raid0 md126p1[1] md127p1[0]
      5860528128 blocks super 1.2 512k chunks

md126 : active raid1 sda1[1] sdb1[2](S)
      2930265390 blocks super 1.2 [2/1] [U_]

md127 : active raid1 sdc1[1] sdd1[0]
      2930265390 blocks super 1.2 [2/2] [UU]

unused devices: <none>

`root@vault:~# parted -l`

Model: ATA ST3000DM001-9YN1 (scsi)
Disk /dev/sda: 3001GB
Sector size (logical/physical): 512B/4096B
Partition Table: gpt
Disk Flags:

Number  Start   End     Size    File system  Name          Flags
 1      17.4kB  3001GB  3001GB               RAID: RAID1A  raid


Model: ATA ST3000DM001-9YN1 (scsi)
Disk /dev/sdb: 3001GB
Sector size (logical/physical): 512B/4096B
Partition Table: gpt
Disk Flags:

Number  Start   End     Size    File system  Name          Flags
 1      17.4kB  3001GB  3001GB               RAID: RAID1A  raid


Model: ATA ST3000DM001-1CH1 (scsi)
Disk /dev/sdc: 3001GB
Sector size (logical/physical): 512B/4096B
Partition Table: gpt
Disk Flags:

Number  Start   End     Size    File system  Name          Flags
 1      17.4kB  3001GB  3001GB               RAID: RAID1B  raid


Model: ATA ST3000DM001-9YN1 (scsi)
Disk /dev/sdd: 3001GB
Sector size (logical/physical): 512B/4096B
Partition Table: gpt
Disk Flags:

Number  Start   End     Size    File system  Name          Flags
 1      17.4kB  3001GB  3001GB               RAID: RAID1B  raid

`root@vault:~# sudo mdadm --detail /dev/md126`

/dev/md126:
        Version : 1.2
  Creation Time : Thu Nov 29 19:09:32 2012
     Raid Level : raid1
     Array Size : 2930265390 (2794.52 GiB 3000.59 GB)
  Used Dev Size : 2930265390 (2794.52 GiB 3000.59 GB)
   Raid Devices : 2
  Total Devices : 2
    Persistence : Superblock is persistent

    Update Time : Thu Jun  2 11:53:44 2016
          State : clean, degraded
 Active Devices : 1
Working Devices : 2
 Failed Devices : 0
  Spare Devices : 1

           Name : :RAID1A
           UUID : 49293460:3199d164:65a039d6:a212a25e
         Events : 5200173

    Number   Major   Minor   RaidDevice State
       1       8        1        0      active sync   /dev/sda1
       2       0        0        2      removed

       2       8       17        -      spare   /dev/sdb1

编辑：这是失败恢复过程中内核日志的内容。

root@vault:~# mdadm --assemble --update=resync --force /dev/md126 /dev/sda1 /dev/sdb1

`root@vault:~# tail -f /var/log/kern.log`

Jun  5 12:37:57 vault kernel: [151562.172914] RAID1 conf printout:
Jun  5 12:37:57 vault kernel: [151562.172917]  --- wd:1 rd:2
Jun  5 12:37:57 vault kernel: [151562.172919]  disk 0, wo:0, o:1, dev:sda1
Jun  5 12:37:57 vault kernel: [151562.172921]  disk 1, wo:1, o:1, dev:sdb1
Jun  5 12:37:57 vault kernel: [151562.173858] md: recovery of RAID array md126
Jun  5 12:37:57 vault kernel: [151562.173861] md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
Jun  5 12:37:57 vault kernel: [151562.173863] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for recovery.
Jun  5 12:37:57 vault kernel: [151562.173865] md: using 128k window, over a total of 2930265390k.
Jun  5 12:37:57 vault kernel: [151562.248457]  md126: p1
Jun  5 12:37:58 vault kernel: [151562.376906] md: bind<md126p1>
Jun  5 13:21:52 vault kernel: [154196.675777] ata3.00: exception Emask 0x0 SAct 0xffe00 SErr 0x0 action 0x0
Jun  5 13:21:52 vault kernel: [154196.675782] ata3.00: irq_stat 0x40000008
Jun  5 13:21:52 vault kernel: [154196.675785] ata3.00: failed command: READ FPDMA QUEUED
Jun  5 13:21:52 vault kernel: [154196.675791] ata3.00: cmd 60/00:48:a2:a4:e0/05:00:38:00:00/40 tag 9 ncq 655360 in
Jun  5 13:21:52 vault kernel: [154196.675791]          res 41/40:00:90:a7:e0/00:05:38:00:00/00 Emask 0x409 (media error) <F>
Jun  5 13:21:52 vault kernel: [154196.675794] ata3.00: status: { DRDY ERR }
Jun  5 13:21:52 vault kernel: [154196.675797] ata3.00: error: { UNC }
Jun  5 13:21:52 vault kernel: [154196.695048] ata3.00: configured for UDMA/133
Jun  5 13:21:52 vault kernel: [154196.695077] sd 2:0:0:0: [sda] tag#9 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Jun  5 13:21:52 vault kernel: [154196.695081] sd 2:0:0:0: [sda] tag#9 Sense Key : Medium Error [current] [descriptor]
Jun  5 13:21:52 vault kernel: [154196.695085] sd 2:0:0:0: [sda] tag#9 Add. Sense: Unrecovered read error - auto reallocate failed
Jun  5 13:21:52 vault kernel: [154196.695090] sd 2:0:0:0: [sda] tag#9 CDB: Read(16) 88 00 00 00 00 00 38 e0 a4 a2 00 00 05 00 00 00
Jun  5 13:21:52 vault kernel: [154196.695092] blk_update_request: I/O error, dev sda, sector 954247056
Jun  5 13:21:52 vault kernel: [154196.695111] ata3: EH complete
Jun  5 13:21:55 vault kernel: [154199.675248] ata3.00: exception Emask 0x0 SAct 0x1000000 SErr 0x0 action 0x0
Jun  5 13:21:55 vault kernel: [154199.675252] ata3.00: irq_stat 0x40000008
Jun  5 13:21:55 vault kernel: [154199.675255] ata3.00: failed command: READ FPDMA QUEUED
Jun  5 13:21:55 vault kernel: [154199.675261] ata3.00: cmd 60/08:c0:8a:a7:e0/00:00:38:00:00/40 tag 24 ncq 4096 in
Jun  5 13:21:55 vault kernel: [154199.675261]          res 41/40:08:90:a7:e0/00:00:38:00:00/00 Emask 0x409 (media error) <F>
Jun  5 13:21:55 vault kernel: [154199.675264] ata3.00: status: { DRDY ERR }
Jun  5 13:21:55 vault kernel: [154199.675266] ata3.00: error: { UNC }
Jun  5 13:21:55 vault kernel: [154199.676454] ata3.00: configured for UDMA/133
Jun  5 13:21:55 vault kernel: [154199.676463] sd 2:0:0:0: [sda] tag#24 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Jun  5 13:21:55 vault kernel: [154199.676467] sd 2:0:0:0: [sda] tag#24 Sense Key : Medium Error [current] [descriptor]
Jun  5 13:21:55 vault kernel: [154199.676471] sd 2:0:0:0: [sda] tag#24 Add. Sense: Unrecovered read error - auto reallocate failed
Jun  5 13:21:55 vault kernel: [154199.676474] sd 2:0:0:0: [sda] tag#24 CDB: Read(16) 88 00 00 00 00 00 38 e0 a7 8a 00 00 00 08 00 00
Jun  5 13:21:55 vault kernel: [154199.676477] blk_update_request: I/O error, dev sda, sector 954247056
Jun  5 13:21:55 vault kernel: [154199.676485] md/raid1:md126: sda: unrecoverable I/O read error for block 954244864
Jun  5 13:21:55 vault kernel: [154199.676488] ata3: EH complete
Jun  5 13:21:55 vault kernel: [154199.676597] md: md126: recovery interrupted.
Jun  5 13:21:55 vault kernel: [154199.855992] RAID1 conf printout:
Jun  5 13:21:55 vault kernel: [154199.855995]  --- wd:1 rd:2
Jun  5 13:21:55 vault kernel: [154199.855998]  disk 0, wo:0, o:1, dev:sda1
Jun  5 13:21:55 vault kernel: [154199.856000]  disk 1, wo:1, o:1, dev:sdb1
Jun  5 13:21:55 vault kernel: [154199.872013] RAID1 conf printout:
Jun  5 13:21:55 vault kernel: [154199.872016]  --- wd:1 rd:2
Jun  5 13:21:55 vault kernel: [154199.872018]  disk 0, wo:0, o:1, dev:sda1

Bigbio2002

Asked: 2014-12-13 06:54:20 +0800 CST

DFSR 是否设计用于灾难恢复？

6

我们目前正在实施一项灾难恢复战略。已决定使用 2 个实时文件服务器通过 DFSR 进行复制，而不是 SAN-SAN 复制。但是，我不知道这是否是一个好主意。

示例：DFS 不复制锁定的文件。假设用户有一个打开了数周的电子表格。它们会定期保存，但文件仍保持打开状态。然后，活动文件服务器关闭，用户被重定向到另一个服务器，该文件尚未被复制。

有没有办法缓解这种情况？我是不是误会了什么？或者 DFSR 不是为 DR 技术而设计的？

编辑：除了我上面的示例之外，DFSR 在 DR 上下文中还有哪些其他缺陷？

Jonas Bylov

Asked: 2014-04-07 22:39:14 +0800 CST

周一早上的错误：sudo rm -rf --no-preserve-root /

151

请注意：此问题的答案和评论包含来自另一个类似问题的内容，该问题已受到外部媒体的大量关注，但在某种病毒式营销计划中被证明是恶作剧问题。由于我们不允许以这种方式滥用 ServerFault，因此已删除原始问题并将答案与此问题合并。

这是一个有趣的悲剧。今天早上我正在对我的生产服务器进行一些维护时，我错误地执行了以下命令：

sudo rm -rf --no-preserve-root /mnt/hetznerbackup /

之前我没有发现最后一个空格/，几秒钟后，当警告充斥我的命令行时，我意识到我刚刚按下了自毁按钮。以下是一些让我眼前一亮的东西：

rm: cannot remove `/mnt/hetznerbackup': Is a directory
rm: cannot remove `/sys/fs/ecryptfs/version': Operation not permitted
rm: cannot remove `/sys/fs/ext4/md2/inode_readahead_blks': Operation not permitted
rm: cannot remove `/sys/fs/ext4/md2/mb_max_to_scan': Operation not permitted
rm: cannot remove `/sys/fs/ext4/md2/delayed_allocation_blocks': Operation not permitted
rm: cannot remove `/sys/fs/ext4/md2/max_writeback_mb_bump': Operation not permitted
rm: cannot remove `/sys/fs/ext4/md2/mb_stream_req': Operation not permitted
rm: cannot remove `/sys/fs/ext4/md2/mb_min_to_scan': Operation not permitted
rm: cannot remove `/sys/fs/ext4/md2/mb_stats': Operation not permitted
rm: cannot remove `/sys/fs/ext4/md2/trigger_fs_error': Operation not permitted
rm: cannot remove `/sys/fs/ext4/md2/session_write_kbytes': Operation not permitted
rm: cannot remove `/sys/fs/ext4/md2/lifetime_write_kbytes': Operation not permitted
# and so on..

当我发现生产服务仍在运行时，我停止了任务并松了一口气。可悲的是，服务器不再通过 SSH 接受我的任何用户的公钥或密码。

你将如何从这里前进？我将在铁丝网的海洋中游泳以恢复 SSH 访问。

该服务器运行 Ubuntu-12.04 并托管在 Hetzner。

一个故障驱动器 + 一个坏扇区是否会破坏整个 RAID 5？

Systemd 和灾难恢复备用系统

在 Azure 上删除托管增量快照是否安全？

ifupdown2 start job 阻止 promox 完全启动

如何在两个站点之间配置没有共享存储的延伸集群？

从 1TB 快照创建新的 EBS 卷需要多长时间？

用于数据文件的数据库服务器与 NAS

无法让我的 RAID 阵列退出降级模式

驱动器布局

`root@vault:~# cat /proc/mdstat`

`root@vault:~# parted -l`

`root@vault:~# sudo mdadm --detail /dev/md126`

`root@vault:~# tail -f /var/log/kern.log`

DFSR 是否设计用于灾难恢复？

周一早上的错误：sudo rm -rf --no-preserve-root /

新安装后 postgres 的默认超级用户用户名/密码是什么？

SFTP 使用什么端口？

命令行列出 Windows Active Directory 组中的用户？

什么是 Pem 文件，它与其他 OpenSSL 生成的密钥文件格式有何不同？

如何确定bash变量是否为空？

问题[disaster-recovery](server)

驱动器布局

root@vault:~# cat /proc/mdstat

root@vault:~# parted -l

root@vault:~# sudo mdadm --detail /dev/md126

root@vault:~# tail -f /var/log/kern.log

`root@vault:~# cat /proc/mdstat`

`root@vault:~# parted -l`

`root@vault:~# sudo mdadm --detail /dev/md126`

`root@vault:~# tail -f /var/log/kern.log`