AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / server / 问题

问题[checksum](server)

Martin Hope
Greg Nelson
Asked: 2022-01-05 18:49:53 +0800 CST

新手 btrfs 用户:校验和失败和大量输入/输出错误

  • 0

一位室友向我建议,我应该使用 btrfs,而不是到目前为止我一直在做的事情,即使用带有克隆驱动器的 mdadm,并在阵列中添加一个额外的驱动器来“克隆”备份。该系统具有三个驱动器,它们都是物理上不同的型号:

  • /dev/sda: 东芝 HDWQ140
  • /dev/sdb: HGST HUS724040AL
  • /dev/sdc:WDC WDS250G2B0B

好吧,我已经安装了 btrfs,但现在它已经运行了将近一年,我发现我应该每周运行一个 cron 作业来“清理”它。我开始尝试为此设置一个脚本,尽管它看起来像是一个愚蠢的 DIY 系统,需要你在谷歌上搜索一个脚本(我发现的热门脚本来自 2014 年之类的东西)并安装它以保持你的文件系统运行。

当我在做所有这些管理工作时,我发现了一些需要移动的文件......我将跳过血淋淋的细节,但是将文件从一个 btrfs 文件系统移动到另一个文件系统并再次返回会产生各种“输入/输出”错误”(在 ext4 中从未见过),甚至这个 gem:

Jan  4 21:19:19 host kernel: [9771285.171522] attempt to access beyond end of device
Jan  4 21:19:19 host kernel: [9771285.171522] sda1: rw=1, want=70370535518208, limit=7814035087
Jan  4 21:19:19 host kernel: [9771285.171529] BTRFS error (device sda1): bdev /dev/sda1 errs: wr 1, rd 0, flush 0, corrupt 5, gen 0

我假设这些是相关的。但这是真正愚蠢的事情。我不仅在已经存在一年的文件上遇到校验和错误,而且在我几个小时前从字面上复制到不同物理驱动器的文件上也遇到了校验和错误。此外,几乎所有这些文件都在巨大的文件中(例如 DVD iso 图像),如果这有任何迹象吗?

所以是的,我可能会同时看到三重驱动器故障,或者 btrfs 是否只是为我破坏我的文件?

此外,知识渊博的 btrfs 人员的每篇文章都包含一个可爱的小字“嗯,你应该从备份中恢复它......你确实有备份,不是吗”。所以告诉我,你们到底用什么来备份 4TB 硬盘?因为我不能确切地,你知道,把它写到 DVD 上,如果硬盘驱动器这么不可靠,那么备份到硬盘驱动器有什么好处呢?

这么严肃的问题:

  1. 这些校验和错误真的正常吗?
  2. 为什么我会在今天才复制的文件上看到它们?
  3. 定期磨砂足以防止这种情况发生吗?
  4. 我是否应该购买新的硬盘并丢弃机器中当前所有的硬盘,因为它们真的出现故障?
  5. 您建议如何备份多 TB 数据驱动器?

2022-01-07 更新:我smartctl在所有驱动器上运行,并且这些驱动器都没有报告任何问题。所有驱动器的原始 UDMA_CRC_Error_Count 为 0。试图恢复损坏的文件...复制到机器的 tar 文件在几个文件出现 I/O 错误后失败。真的不知道这里发生了什么:

  • 如果驱动器或电缆坏了,这会出现在 SMART 中,对吗?
  • 如果CPU或内存不好,系统就不会完美运行吗?(目前 115 天没有明显问题)?
  • 如果这是 btrfs 的一个全面的错误,它不会遍布整个互联网吗?

那么问题究竟出在哪里呢?

backup ubuntu-20.04 btrfs checksum
  • 1 个回答
  • 195 Views
Martin Hope
user260467
Asked: 2016-09-09 12:24:54 +0800 CST

ZFS vdev 会累积校验和错误,但单个磁盘不会

  • 8

我正在运行 FreeNAS 9.3 的特定于供应商的衍生产品。

当我安装一个新的 JBOD 机箱向我的池中添加两个新的 vdev 时,我的麻烦就开始了,而机箱的主板坏了。在此期间,我看到坏板上的驱动器出现 SAS 电源错误——我的新驱动器每分钟都在重复地打开和关闭。

我更换了主板,现在,从大多数方面来看,驱动器运行良好,但是当我查看zpool status. 我认为当我遇到 SAS 电源问题时,有一些糟糕的 CoW 写入。

带有 CPU、引导驱动器、RAM 等的第一个机箱通过 mini-SAS 连接到第一个扩展 JBOD 机箱,第二个 JBOD 扩展机箱通过第一个 JBOD 扩展机箱以菊花链方式连接,也通过 mini-SAS。

  • [机箱 1:启动盘,两个 L2ARC SSD,RAIDZ3-0 的 11/11 驱动器,RAIDZ3-1 的 1/11 驱动器] -->mini-SAS 到机箱 2
  • [机箱 2:RAID Z3-1 的 10/11 个驱动器,RAID Z3-2 的 6/11 个驱动器] --> mini-SAS 到机箱 3
  • 【机箱3:RAIDZ3-2 5/11盘,RAIDZ3-3 11/11盘】

校验和错误并没有准确地映射到任何一个控制器或机箱,但我的直觉是,当我遇到这些电源问题时,写入不同新磁盘的任何数据都在两个新 vdev 上写入错误。

我的 HBA 都在良好的 LSI 固件上——全部都在 20.00.04.00 或 20.00.08.00

我已经更换了 mini-SAS 电缆,并尝试使用不同的端口,但无济于事。

的输出zpool status显示了两个新 vdev 上累积的校验和错误,并且在清理、重新启动或zpool clear之后,最终将zpool status这些 vdev 标记为降级。奇怪的是,它还将属于那些 vdev 的一些驱动器标记为降级,但它们的各个磁盘的实际错误计数都是 0。zdb表明各个驱动器被标记为降级,因为它们有太多的校验和错误,即使他们所有的校验和错误计数实际上都是 0。同样奇怪的是池级校验和错误显示的数字低于两个问题 vdev 加在一起的校验和错误。

zpool status -v在映射到0x0早已被删除但似乎无法通过多次清理、重新启动或zpool clear. 此外,其他永久性错误会时不时出现,有时仅显示为十六进制代码 inode,有时则显示为最近快照的一部分。我找不到任何0x0.lsof

我相信池中的元数据可能存在某种数据损坏。

我正在寻找一种方法来通过手术移除这些幻像快照,或者以其他方式将我的池恢复到健康状态而不破坏我的数据。我怀疑在某个地方,ZFS 正在迭代这些损坏的幻像快照,并导致奇怪的校验和错误和 vdev 上的降级状态。

我有很多重要数据的“冷”LTO 备份,但除此之外,如果我无法修复我的池,我正准备设置第二台服务器,将所有内容卸载到“热”的第二台服务器,销毁我的池在顶层,然后从热备份重新加载。

这是输出zpool status -v:

[root@Jupiter] ~# zpool status -v
  pool: freenas-boot
 state: ONLINE
status: One or more devices are configured to use a non-native block size.
        Expect reduced performance.
action: Replace affected devices with devices that support the configured block size, or migrate data to a properly configured pool.
  scan: resilvered 944M in 0h17m with 0 errors on Tue Aug  9 11:56:28 2016
config:

    NAME        STATE     READ WRITE CKSUM
    freenas-boot  ONLINE       0     0     0
      mirror-0  ONLINE       0     0     0
        da46p2  ONLINE       0     0     0  block size: 8192B configured, 8388608B native
        da47p2  ONLINE       0     0     0  block size: 8192B configured, 8388608B native

errors: No known data errors

  pool: pool
 state: DEGRADED
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
   see: http://illumos.org/msg/ZFS-8000-8A
  scan: scrub in progress since Fri Sep  9 22:43:51 2016
        6.27T scanned out of 145T at 1.11G/s, 35h27m to go
        0 repaired, 4.33% done
config:

    NAME                                            STATE     READ WRITE CKSUM
    pool                                            DEGRADED     0     0   118
      raidz3-0                                      ONLINE       0     0     0
        gptid/ac108605-265c-11e5-9a02-0cc47a599098  ONLINE       0     0     0
        gptid/ac591d4e-265c-11e5-9a02-0cc47a599098  ONLINE       0     0     0
        gptid/ac92fd0d-265c-11e5-9a02-0cc47a599098  ONLINE       0     0     0
        gptid/accd3076-265c-11e5-9a02-0cc47a599098  ONLINE       0     0     0
        gptid/ad067e97-265c-11e5-9a02-0cc47a599098  ONLINE       0     0     0
        gptid/ad46cbee-265c-11e5-9a02-0cc47a599098  ONLINE       0     0     0
        gptid/ad91ba17-265c-11e5-9a02-0cc47a599098  ONLINE       0     0     0
        gptid/adcbdd0a-265c-11e5-9a02-0cc47a599098  ONLINE       0     0     0
        gptid/ae07dc0d-265c-11e5-9a02-0cc47a599098  ONLINE       0     0     0
        gptid/ae494d10-265c-11e5-9a02-0cc47a599098  ONLINE       0     0     0
        gptid/ae93a3a5-265c-11e5-9a02-0cc47a599098  ONLINE       0     0     0
      raidz3-1                                      ONLINE       0     0     0
        gptid/12f6a4c5-c929-11e5-8075-0cc47a599098  ONLINE       0     0     0
        gptid/511ea1f9-1932-11e6-9b1e-0cc47a599098  ONLINE       0     0     0
        gptid/14436fcf-c929-11e5-8075-0cc47a599098  ONLINE       0     0     0
        gptid/14f50aa3-c929-11e5-8075-0cc47a599098  ONLINE       0     0     0
        gptid/159b5654-c929-11e5-8075-0cc47a599098  ONLINE       0     0     0
        gptid/163d682b-c929-11e5-8075-0cc47a599098  ONLINE       0     0     0
        gptid/16ee624e-c929-11e5-8075-0cc47a599098  ONLINE       0     0     0
        gptid/1799dde3-c929-11e5-8075-0cc47a599098  ONLINE       0     0     0
        gptid/184c2ea4-c929-11e5-8075-0cc47a599098  ONLINE       0     0     0
        gptid/18f51c30-c929-11e5-8075-0cc47a599098  ONLINE       0     0     0
        gptid/19a861ea-c929-11e5-8075-0cc47a599098  ONLINE       0     0     0
      raidz3-2                                      DEGRADED     0     0   236
        gptid/5f80fc42-4e00-11e6-b7cf-0cc47a599098  DEGRADED     0     0     0  too many errors
        gptid/60369e0f-4e00-11e6-b7cf-0cc47a599098  DEGRADED     0     0     0  too many errors
        gptid/60e8234a-4e00-11e6-b7cf-0cc47a599098  DEGRADED     0     0     0  too many errors
        gptid/61a235f2-4e00-11e6-b7cf-0cc47a599098  DEGRADED     0     0     0  too many errors
        gptid/62580471-4e00-11e6-b7cf-0cc47a599098  DEGRADED     0     0     0  too many errors
        gptid/6316a38a-4e00-11e6-b7cf-0cc47a599098  DEGRADED     0     0     0  too many errors
        gptid/63d4bce8-4e00-11e6-b7cf-0cc47a599098  DEGRADED     0     0     0  too many errors
        gptid/ebfc2b99-6893-11e6-9b09-0cc47a599098  ONLINE       0     0     0
        gptid/654f143a-4e00-11e6-b7cf-0cc47a599098  DEGRADED     0     0     0  too many errors
        gptid/66236b33-4e00-11e6-b7cf-0cc47a599098  DEGRADED     0     0     0  too many errors
        gptid/66eda3f6-4e00-11e6-b7cf-0cc47a599098  DEGRADED     0     0     0  too many errors
      raidz3-3                                      DEGRADED     0     0   176
        gptid/c77a9da9-4e02-11e6-b7cf-0cc47a599098  ONLINE       0     0     0
        gptid/c83e100e-4e02-11e6-b7cf-0cc47a599098  ONLINE       0     0     0
        gptid/c8fd9ced-4e02-11e6-b7cf-0cc47a599098  DEGRADED     0     0     0  too many errors
        gptid/c9bb21ba-4e02-11e6-b7cf-0cc47a599098  DEGRADED     0     0     0  too many errors
        gptid/ca7a48db-4e02-11e6-b7cf-0cc47a599098  DEGRADED     0     0     0  too many errors
        gptid/cb422329-4e02-11e6-b7cf-0cc47a599098  DEGRADED     0     0     0  too many errors
        gptid/cbfe4c21-4e02-11e6-b7cf-0cc47a599098  ONLINE       0     0     0
        gptid/ccc43528-4e02-11e6-b7cf-0cc47a599098  ONLINE       0     0     0
        gptid/cd93a34c-4e02-11e6-b7cf-0cc47a599098  ONLINE       0     0     0
        gptid/ce622f51-4e02-11e6-b7cf-0cc47a599098  ONLINE       0     0     0
        gptid/cf2591d3-4e02-11e6-b7cf-0cc47a599098  ONLINE       0     0     0
    cache
      gptid/aedd3872-265c-11e5-9a02-0cc47a599098    ONLINE       0     0     0
      gptid/af559c10-265c-11e5-9a02-0cc47a599098    ONLINE       0     0     0

errors: Permanent errors have been detected in the following files:

        <0x357>:<0x2aef3>
        <0x37b>:<0x397285>
pool/[email protected]:<0x0>

通过 FreeNAS GUI,我尝试将System dataset poolfrom复制pool到freenas-boot,然后尝试使用zfs destroy删除pool副本pool/.system并保持freenas-boot副本完好无损。我可以zfs destroy用来删除中 pool/.system列出的所有内容zfs list,但是在尝试使用 销毁pool/.system时zfs destroy,shell 返回了错误:Cannot iterate filesystems: I/O error。根据Oracle ZFS 文档,我尝试zfs destroy使用pool/.system、和标志,但无济于事。-f-r-R

我又开始了另一次磨砂。也许消除副本上的pool/.system内容将允许清理使用幻像快照清除元数据错误。poolSystem dataset poolpool/[email protected]

我想知道是否有可能重新同步显示为降级的每个磁盘,一个接一个,以便可以放弃没有被引用的“坏”元数据。我已经重新同步了两个磁盘,但现在我遇到了一个问题,其中重新同步任何其他磁盘会导致我已经重新同步的其他磁盘同时开始再次重新同步。我相信这可能是与定期快照任务相关的 ZFS 错误,我已经删除了我的定期快照任务并销毁了我所有的快照,但我犹豫是否要重新同步另一个降级的驱动器,因为害怕所有先前重新同步的磁盘将再次重新同步,使我没有任何冗余,最终导致池出现故障。

在禁用我的定期快照任务并删除我的所有快照后,我尝试擦除一个磁盘然后重新同步它,但是我已经重新同步的三个磁盘又开始重新同步。现在我几乎可以肯定,每个问题 RAID-Z3 vdev 都有两个不同的磁盘可以重新同步,所以如果我尝试重新同步更多磁盘,我将失去每个问题 vdev 和我的池中的冗余会出错。

另一种奇怪的行为是检查zpool status -v实际上会逐渐增加池的校验和错误计数,但检查zpool status不会。就好像-v标志本身正在迭代导致校验和错误的任何机制。

在我的池中使用zdb -c是否能够以某种方式“修复”这些元数据错误?

freebsd zfs truenas checksum zpool
  • 1 个回答
  • 2512 Views
Martin Hope
Nic
Asked: 2010-03-11 11:53:41 +0800 CST

如何验证 WAN 连接的完整性?

  • 2

我们的分支机构有两台扫描仪,它们通过 FTP 将图像上传到总部。上周,两台扫描仪都开始提供大量损坏的图像。

我怀疑问题可能出在 WAN 链接上,并且 TCP 可能没有检测/纠正所有错误。是否有任何适用于 Windows 的软件允许我通过发送带有嵌入式 CRC 的数据包来测试连接的完整性?

wide-area-network tcpip checksum
  • 2 个回答
  • 208 Views
Martin Hope
wazoox
Asked: 2010-03-09 04:17:54 +0800 CST

创建包含校验和的 tar 文件

  • 20

这是我的问题:我需要将很多(最多 60 TB)大文件(通常每个 30 到 40 GB)归档到 tar 文件中。我想在归档之前对这些文件进行校验和(md5、sha1 等);但是,不读取每个文件两次(一次用于校验和,两次用于 tar'ing)或多或少是实现非常高的归档性能的必要条件(LTO-4 需要持续 120 MB/s,并且备份窗口是有限的)。

所以我需要一些方法来读取文件,在一侧提供校验和工具,并在另一侧构建一个 tar 到磁带,沿着:

tar cf - files | tee tarfile.tar | md5sum -

除了我不想要整个存档的校验和(这个示例 shell 代码就是这样做的),而是存档中每个单独文件的校验和。

我研究过 GNU tar、Pax、Star 选项。我查看了Archive::Tar的来源。我认为没有明显的方法可以实现这一目标。看来我必须用 C 或类似语言手动构建一些东西才能实现我需要的东西。Perl/Python/etc 根本不会降低性能,并且各种 tar 程序都缺少必要的“插件架构”。在我开始编写代码之前,有谁知道任何现有的解决方案?

linux archive checksum
  • 4 个回答
  • 30366 Views
Martin Hope
Zachary Scott
Asked: 2010-02-09 14:15:00 +0800 CST

Win32 软件使用校验和将文件系统同步到 FTP 服务器?

  • 0

一个简单的问题是,您如何定期将 Windows 文件系统同步到 FTP 目标,同时从不检查目标是否有更改,除非发生坏事并且不依赖文件大小或日期/时间更改。使用日期/时间来确定更改(NTS 更改秒数、夏令时等)时存在太多其他差异,并且由于阻塞因素等,文件大小不那么可靠。

第一个问题是那里的 FTP 服务器软件支持使用 MD5 的校验和或哈希(与 SHA-1 相比,MD5 相当快,但无论如何都可以)。

第二个问题是哪个复制程序可以从目录列表中生成哈希值,将它们存储在数据库中,发送任何更改或新的内容,除非发生异常情况,否则永远不要检查目标 FTP 服务器,可能有一个服务器端实用程序来生成数据库如果文件已经存在。

windows synchronization ftp file-transfer checksum
  • 4 个回答
  • 473 Views

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    新安装后 postgres 的默认超级用户用户名/密码是什么?

    • 5 个回答
  • Marko Smith

    SFTP 使用什么端口?

    • 6 个回答
  • Marko Smith

    命令行列出 Windows Active Directory 组中的用户?

    • 9 个回答
  • Marko Smith

    什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同?

    • 3 个回答
  • Marko Smith

    如何确定bash变量是否为空?

    • 15 个回答
  • Martin Hope
    Tom Feiner 如何按大小对 du -h 输出进行排序 2009-02-26 05:42:42 +0800 CST
  • Martin Hope
    Noah Goodrich 什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同? 2009-05-19 18:24:42 +0800 CST
  • Martin Hope
    Brent 如何确定bash变量是否为空? 2009-05-13 09:54:48 +0800 CST
  • Martin Hope
    cletus 您如何找到在 Windows 中打开文件的进程? 2009-05-01 16:47:16 +0800 CST

热门标签

linux nginx windows networking ubuntu domain-name-system amazon-web-services active-directory apache-2.4 ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve