Linux raid 重启后消失

Question

quixotrykd

Asked: 2024-07-08 08:49:59 +0800 CST2024-07-08 08:49:59 +0800 CST 2024-07-08 08:49:59 +0800 CST

RAID 总是读取/写入整个块吗？

772

互联网上的许多资源包含有关 RAID 块的读/写逻辑的相互矛盾的信息。

该答案包含以下（看似相互矛盾的）信息：

512 KB 块大小并不要求系统每次写入 4 KB 时都写入 512 KB，或者每次应用程序读取 4 KB 时都读取 512 KB 的设备表面。

[当从具有 64 KiB 块大小的 RAID 读取 16 KiB 块时] RAID 将在写入该 4 KiB 文件/16 KiB 块时执行读取/修改/写入操作，因为 RAID 的最小存储单位是 64 KiB。

另一方面，该资源包含以下信息：

例如，如果您有一个 10 KB 的文本文件，且块大小为 256 KB，则该 10 KB 的数据将存储在 256 KB 的块中，其余块将留空。相反，如果使用 16 KB 的块，则存储该 10 KB 文件时浪费的空间要少得多。

我特别有以下问题：

当使用无奇偶校验的方案读取/写入小于 RAID 块大小的某些数据单元时，是否需要对整个块进行读取/修改/写入操作，还是仅对修改的部分块进行读取/修改/写入操作？
当使用具有奇偶校验的RAID 方案时，这会改变问题 1 的答案吗？
正如第二个参考文献中提到的，写入小于 RAID 块的数据单元是否会以某种方式使 RAID 块的其余部分保持空白？这在我看来似乎是不正确的，但我想澄清一下，因为这个资源非常明确地说明了这一点。
这些答案是否会根据 RAID 实现（Linux 内核、硬件 RAID 等）而改变？

如果可能的话，提供某种权威参考（一些 RAID 规范、源代码等）就太好了。

提前致谢！

1 个回答

Voted

frostschutz · Answer 1 · 2024-07-09T18:08:03+08:00

块大小主要决定数据如何在设备之间分布（如果您想读取 RAID 设备上的字节 1234567890，则要查找哪个物理设备和偏移量）。

它不会直接影响 RAID 算法，在 RAID 5 中，这是一个简单的 XOR 操作，也称为按位 XOR。从数学上讲，这是对位进行操作，因此不依赖于字节、扇区或块。RAID 6 稍微复杂一些，但仍然足够相似。

因此不需要处理整个块。

对于Linux mdadm RAID，可以尝试通过实验来验证：

创建一些虚拟驱动器（使用稀疏文件）：

# truncate -s 1G {1..8}.img
# for img in {1..8}.img; do losetup --find --show "$img"; done
/dev/loop{1..8}

在上面放置一个 mdadm RAID 6（使用--assume-clean它，除了元数据之外，它不写入任何内容）：

# mdadm --create --assume-clean --level=6 --raid-devices=8 --data-offset=2048 /dev/md42 /dev/loop{1..8}
mdadm: Defaulting to version 1.2 metadata
mdadm: array /dev/md42 started.

向随机偏移量进行小规模写入：

# blockdev --getsize64 /dev/md42
6429868032
# echo $((SRANDOM % 6429868032))
2931013558
# echo -n TEST | dd bs=1 seek=2931013558 of=/dev/md42
# sync
# echo 3 > /proc/sys/vm/drop_caches

结果：

# filefrag {1..8}.img
1.img: 1 extent found
2.img: 1 extent found
3.img: 2 extents found
4.img: 1 extent found
5.img: 2 extents found
6.img: 2 extents found
7.img: 1 extent found
8.img: 1 extent found

所有映像都有 1 个区（用于 mdadm 元数据），因此您可以忽略它。只有 3 个映像有 2 个区（数据、奇偶校验 1、奇偶校验 2）。因此只有这些被写入。

# filefrag -v -e 3.img 5.img 6.img
File size of 3.img is 1073741824 (262144 blocks of 4096 bytes)
 ext:     logical_offset:        physical_offset: length:   expected: flags:
   0:        1..       1:     301057..    301057:      1:          1: merged
   1:   119739..  119739:     318395..    318395:      1:     420795: last,merged
3.img: 2 extents found

如您所见，范围是一个扇区，而不是一个块。

原始数据如下：

# hexdump -C 3.img
*
1d3bb7b0  00 00 00 00 00 00 54 45  53 54 00 00 00 00 00 00  |......TEST......|
1d3bb7c0  00 00 00 00 00 00 00 00  00 00 00 00 00 00 00 00  |................|
*
# hexdump -C 5.img
*
1d3bb7b0  00 00 00 00 00 00 54 45  53 54 00 00 00 00 00 00  |......TEST......|
1d3bb7c0  00 00 00 00 00 00 00 00  00 00 00 00 00 00 00 00  |................|
*
# hexdump -C 6.img
*
1d3bb7b0  00 00 00 00 00 00 29 24  59 29 00 00 00 00 00 00  |......)$Y)......|
1d3bb7c0  00 00 00 00 00 00 00 00  00 00 00 00 00 00 00 00  |................|
*

由于所有数据均为零，因此 RAID 5 的奇偶校验TEST仍为TEST。对于 RAID6 奇偶校验，TEST则变为)$Y)。

您可以通过用随机数据填充数组来扩展此实验，然后仅在这 3 个设备中的一个或多个的目标偏移处/周围写入 {4,16,512,4096,16384} 字节零，然后重复该实验。

这样您就可以确定 mdadm 不是以单字节级别分辨率运行的（但仍然没有超出扇区，更不用说整个块了）。

您可能还会注意到，如果在写入之前奇偶校验已经错误，它会写入错误的奇偶校验（使用奇偶校验来更新奇偶校验而不是从数据重新计算）。

RAID 总是读取/写入整个块吗？

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

RAID 总是读取/写入整个块吗？

1 个回答

相关问题