问题:有没有办法让这 350,000 个文件积压更快地完成?对于几乎每个文件,唯一的变化是对每个受影响文件的 ACL 的更改。一些文件的内容发生了变化,但这在这种情况下并不常见。
这可能是固定的。经过一段时间和验证后,我将编辑此文本以确认成功/失败。在这个问题文本的末尾,我详细说明了最近所做的可能修复它的更改。
我们有一个 DFSR 复制组,大约有 450,000 个文件,占用 1.5TB 的空间。在这种情况下,有两台相距约 500 英里的 Windows Server 2008 R2 服务器。还有其他服务器,但它们不参与此复制组。服务器 ALPHA 是主要服务器,也是大多数员工使用的服务器。Server BETA 是远程办公室的服务器,不太忙。
这是此复制组(托管在 Google Drive 上的 PNG)的积压图表,显示了缓慢的同步进度。
我需要删除该复制组根目录中的权限条目,该条目当然是在大多数子文件夹中继承的。我在服务器 ALPHA 上进行了此更改。紧接着,DFSR 积压了 350,000 份文件。已经一个多星期了,现在是 267,000。唯一改变的(最初)是单一的权限改变。
这就是发生的事情(这不是解决方案,只是对导致此问题的原因的另一种解释):http: //blogs.technet.com/b/askds/archive/2012/04/14/saturday-mail-sack -因为事实证明周五晚上打架没问题.aspx#dfsr
服务器 BETA 上发生的任何更改都会非常快速地复制到服务器 ALPHA,因为该方向没有积压。在 BETA 上更改的任何文件都可以毫无问题地进入 ALPHA。
它通过一端的 50Mbps 连接全速 24/7 复制到另一端的 100Mbps 光纤。每台服务器上的暂存区为 100GB。事件日志中没有任何有趣的内容。不相关的高水位线事件显示为不相关的复制组,该复制组既不针对此特定复制,也不针对此 ALPHA/BETA 服务器对。特别是没有高水位线或连接错误的事件日志条目。
ALPHA 对复制组的看法:
带宽节省:减少 99.83%(复制 30.85 MB 而不是 18.1 GB)
我相信 30.85MB/18.1GB 发生在我上次在 ALPHA 和 BETA 上重新启动 DFSR 服务之后。如果是这样,这表明即使花费了很长时间(比我认为应该花费的时间更长),它实际上并没有通过网络传输文件内容。
复制的文件夹:1.46TB(实际大小)、439,387(文件)、52,886(文件夹)
冲突和删除文件夹:100.00GB(配置大小)、34.01GB(实际大小)、19,620(文件)、2,393(文件夹)
暂存文件夹:200.00GB(配置大小),92.54GB(实际大小)
我在日志中发现了一个高水位线错误(5 月 14 日,晚上 7 点),因此将暂存配额从 100GB 提高到 200GB。我知道微软批准的路线是增加 20%,但我不是在玩这个。我们在暂存磁盘阵列上有足够的磁盘空间。
在所有服务器上禁用防病毒软件没有帮助,尽管我认为它会有所帮助。现在我已经重新启用了反病毒,但将复制组的路径设置为从扫描中排除,以便从等式中删除该变量。
有没有办法让它走得更快?我也会在服务器 BETA 上进行此更改,但是有些文件在 ALPHA 上已更改但尚未复制到 BETA,并且通过对 BETA 进行继承权限更改会将旧文件从 BETA 推送到 ALPHA(因为 DFSR 似乎比较哪个文件是冲突中的获胜者时忽略文件时间戳)。发生这种情况会很糟糕。
积压正在缓慢减少。非常非常缓慢。不过,它正在向前发展。但按照这个速度,它需要数周时间才能完成。我正在考虑将数据集的副本推送到 3TB 驱动器上并将其运送到远程办公室。有没有更好的办法?
美国太平洋时间 5 月 16 日凌晨 4 点:可能是什么解决了这个问题(无论如何,假设它是诚实地解决的):
我对 DC 进行了多项更改,这些更改本应在很久以前完成。问题是这个网络是从其他人那里继承来的,而其他人可能是从其他人那里继承来的,等等。我不能保证哪个更改解决了这个问题。在这里,它们没有特别的顺序:
- 所有 DC 都不在“域控制器”OU 中。我从未见过在其他地方拥有 DC 的 Windows 域。我把它们搬回了它们所属的地方。他们以前在 OU 中,这些 OU 按每个办公室所在城市的名称分隔。(我觉得我现在移动了这些管道,但现在一切似乎都还好......)
- AVG Anti-Virus 在所有 DC 和参与 DFSR 的服务器上运行。我从主动/按访问扫描中排除了复制的文件夹和暂存文件夹。我不认为这可以解决问题,我可能会在稍后测试这个问题,看看撤消该更改是否会影响 DFSR 的复制速度。这是另一天的挑战。
- dcdiag.exe抱怨与 RODC 有关的 DNS 问题。即使我们在域上根本没有 RODC,我也解决了这个问题。我怀疑这能解决任何问题。
- 其中一个 DC(不是 DFSR 服务器之一)缺少 _ldap._tcp.domain.GUID._msdcs.DOMAIN.NET SRV 记录之一,我对此进行了补救。我认为这也没有帮助。
- 有一次我重新启动服务器 BETA,它抱怨 DFSR 数据库(事件 2212)的错误关闭,然后它继续花费数小时来重建数据库。完成后,它报告事件 2214 让我知道它已完成。在那之后,复制仍然运行得非常缓慢,但它可能有助于解除任何卡住的东西。
- 其中一个 DC 在其接口配置中没有将 127.0.0.1 作为辅助 DNS 服务器。我添加了它。这不是 DFSR 服务器之一,因此可能与它无关。
- 我关注了TechNet 博客:调整 DFSR 中的复制性能,推荐 DFSR 服务器的注册表设置。我使用了所有“测试的高性能值”值,除了AsyncIoMaxBufferSizeBytes设置为4194304,比高值低一个档次。这可能有助于解决问题……也可能没有。很难判断何时更改太多变量。
- dcdiag.exe抱怨与 BETA 上的 RPC 服务通信时出现问题,但仅在已进行上述更改之后。这似乎是最有可能发生的问题,但我没有采取任何措施来纠正它。VPN 运行正常,防火墙没有阻止它。上述项目之一可能是导致并修复了 RPC 问题的原因,或者这可能只是巧合。我现在没有收到该错误,并且复制目前正在顺利进行。
这个故事的寓意是:一次改变一件事,否则你永远不会真正知道是什么解决了它。但我很绝望,没有时间修复它,所以我只是对这个问题开了一枪。如果我曾经查明修复,我会在这里报告。不过,不要指望我缩小范围。
2012 年 5 月 21 日编辑: 我昨天用备用服务器 (GAMMA) 开车大约七个小时到远程办公室解决了这个问题。GAMMA 现在充当他们的主要本地服务器,而他们的常用服务器 (BETA) 则赶上复制。自从我把它安装到位后,服务器的复制速度已经翻了一番。虽然这告诉我这可能是一个与 VPN 相关的问题,但我不太愿意相信这是因为所有新更新似乎都非常快速地从 ALPHA 复制到 GAMMA,并且进展顺利。
2012 年5 月 22 日编辑: 现在是 12000,应该会在几个小时内完成。我将发布一个很好的图表,说明从缓慢开始到快速完成的进度。问题是唯一真正“修复”它的是本地服务器连接。我目前在想,也许 VPN 是问题的一部分。如果是这样的话,我觉得这个问题还没有完全回答。在我有更多时间检查事物如何通过 VPN 复制并看到任何故障后,我将调试并报告进度。
如果有什么变化我会在这里更新。
您可以调整复制计划以允许 DFS-R 在下班时间(甚至在适当的时间)全速复制。
您还可以尝试增加后台登录服务器上的暂存大小。它应该在这种情况下提高性能。
你没有提到它是否有上限,但我认为这是因为你有跨 WAN 的复制。
非常奇怪的问题,尤其是在审查编辑之后。
我会检查位于此处的 DFSR 调试日志:%systemroot%\debug 默认情况下,应该有 9 个以前的日志文件已被 GZ 存档,一个当前正在写入。
在文本文件中打开它,搜索文本“警告”或“错误”。您可以查看此博客系列以获取有关调试日志的更多详细信息:http: //blogs.technet.com/b/askds/archive/2009/03/23/understanding-dfsr-debug-logging-part-1-日志级别-日志格式-guid-s.aspx
其他问题/建议:
查看资源监视器时是否有任何不合适的地方?超出基线的过多硬盘驱动器或 CPU 活动?
如果可能的话,我会重新启动 Alpha 和 Beta 服务器。如果它解决了您的问题,您可能永远不知道真正的问题是什么,但如果尽快解决这个问题至关重要,那么值得一试。
根据问题更新进行编辑
您提到了两个与 850 MB 文件相关的条目,以及 DFSR 调试日志中的一个错误。
您可以尝试将暂存位置更改为每台服务器上的不同文件夹或驱动器吗?以防当前正在暂存的文件损坏或以某种方式阻止复制。
我的经验是这就是它的工作原理。
我在对 4 个 DFS 复制组(550 GB 数据、58k 文件、总共 3.4k 文件夹)的相当小的集合更新安全性后偶然发现了这个问题。实际在线路上传输的数据很少,因此它似乎不是为了安全更改而移动整个文件,但磁盘活动感觉整个层次结构正在被重新复制——持续的磁盘传输速率在 60-100 MB/秒之间,并且磁盘队列的 30,在 SSD 分层存储空间上达到 500 的峰值。
我的感觉是,DFS 在其暂存和转储过程中有很多变动,这会导致极端的磁盘 I/O。两个千兆 LAN 连接的盒子之间的初始复制过程比在盒子之间简单复制相同数据的时间要长数倍,这似乎表明复制的每个字节都需要多个字节的磁盘读取和写入。
安全更新似乎没有任何特殊的复制逻辑,除非使用 2012 年基于声明的安全性(未广泛使用 AFAICT),导致与数据更改相同的阶段/停止流失。