在我们推送到磁带之前,我们已经设置了一个廉价的物理服务器,其中包含一堆 3TB 磁盘用作备份暂存区域。我们已经安装了 Windows Server 2012 R2 并设置了存储空间/池。我们使用 Veeam 备份到在光纤通道上运行的速度更快的服务器,然后使用脚本将早于 x 天的备份移动到我们的 Storage Spaces 服务器。
我们最初遇到了一些失败,因为我们发现使用 Robocopy 通过 UNC 路径移动数据并没有优雅地关闭 SMB 连接。我们通过在脚本中添加 net use 然后 net use /delete 解决了这个问题(然后使用驱动器号作为 Robocopy 目标)。这在过去一两周内效果很好。
今天早上虽然脚本报告失败。经过调查,我发现了一系列事件 ID 51 警告,然后是事件 ID 134(来自源 ReFS)。在我看来,这就像存储池中的物理磁盘发生故障。但是,在服务器管理器中查看,它显示虚拟磁盘/卷/不太确定如何将其称为“离线”;只需将其重新联机即可,并且存储池中没有发生故障的物理磁盘。还有两个热备件,这些都没有被交换。
我很好奇这里发生了什么?还有为什么音量下线了?我认为 ReFS 和存储池的全部意义在于在发生此类故障时提供依赖?
编辑:在下面添加所有相关日志。
<Event xmlns="http://schemas.microsoft.com/win/2004/08/events/event">
<System>
<Provider Name="disk" />
<EventID Qualifiers="32772">51</EventID>
<Level>3</Level>
<Task>0</Task>
<Keywords>0x80000000000000</Keywords>
<TimeCreated SystemTime="2014-12-23T22:13:12.704827200Z" />
<EventRecordID>23901</EventRecordID>
<Channel>System</Channel>
<Computer>****</Computer>
<Security />
</System>
<EventData>
<Data>\Device\Harddisk25\DR25</Data>
<Binary>040080000100000000000000330004802D0100006B0400C000000000000000000000000000000000FC8F470200000000FFFFFFFF0100000058000030020000000020101280032040000080003C000000000020AB09E0FFFF783583D201E0FFFF0000000000000000507383D201E0FFFF30C99FC108E0FFFF6B0400C0000000008A00000000027C288D60000008000000000000000000000000000000000000000000000000000000</Binary>
</EventData>
</Event>
在分页操作期间在设备 \Device\Harddisk25\DR25 上检测到错误。
仅供参考 Disk25 是存储空间创建的虚拟磁盘,而不是物理磁盘之一
<Event xmlns="http://schemas.microsoft.com/win/2004/08/events/event">
<System>
<Provider Name="ReFS" Guid="{036647D2-2FB0-4E32-8349-3F5C19C16E5E}" />
<EventID>134</EventID>
<Version>0</Version>
<Level>2</Level>
<Task>0</Task>
<Opcode>0</Opcode>
<Keywords>0x8000000000000000</Keywords>
<TimeCreated SystemTime="2014-12-23T22:13:13.329846900Z" />
<EventRecordID>23902</EventRecordID>
<Correlation />
<Execution ProcessID="4" ThreadID="31267444" />
<Channel>System</Channel>
<Computer>*****</Computer>
<Security UserID="S-1-5-18" />
</System>
<EventData>
<Data Name="VolumeIdLength">2</Data>
<Data Name="VolumeId">D:</Data>
<Data Name="FailureReason">0xc000000e</Data>
</EventData>
</Event>
文件系统无法将元数据写入媒体支持卷 D:。写入失败,状态为“指定了不存在的设备”。ReFS 将使卷脱机。它可能会自动重新安装。
<Event xmlns="http://schemas.microsoft.com/win/2004/08/events/event">
<System>
<Provider Name="Microsoft-Windows-StorageSpaces-Driver" Guid="{595F7F52-C90A-4026-A125-8EB5E083F15E}" />
<EventID>304</EventID>
<Version>0</Version>
<Level>3</Level>
<Task>0</Task>
<Opcode>0</Opcode>
<Keywords>0x8000000000000000</Keywords>
<TimeCreated SystemTime="2014-12-30T23:43:40.519688500Z" />
<EventRecordID>21</EventRecordID>
<Correlation />
<Execution ProcessID="4" ThreadID="3723912" />
<Channel>Microsoft-Windows-StorageSpaces-Driver/Operational</Channel>
<Computer>****</Computer>
<Security UserID="S-1-5-18" />
</System>
<EventData>
<Data Name="Id">{DE94C7EF-6A25-11E4-80B7-647002019326}</Data>
</EventData>
</Event>
虚拟磁盘 {de94c7ef-6a25-11e4-80b7-647002019326} 处于降级状态。当托管虚拟磁盘的物理磁盘发生故障、断开连接或遇到写入错误时,可能会发生这种情况。
Windows 将尝试修复虚拟磁盘。此时无需执行任何操作。
假设您肯定使用了容错模式,例如奇偶校验或镜像,那么该错误应该是不可能的。我能够使用我知道是坏的磁盘在条带设置中重现该错误。因此,要么您已准备好进行条带化,要么您发现了一个错误。如果您还没有的话,我会在这一点上让微软参与进来。
在与 Microsoft 支持工程师进行了长时间的电子邮件讨论后,我们最终安装了以下汇总更新:
http://support.microsoft.com/kb/2887595
这包括似乎专门针对此问题的更新:
https://support.microsoft.com/en-us/kb/2897150
自安装汇总更新以来,该卷始终保持在线状态,没有任何问题。