我需要一双新鲜的眼睛。
我们正在使用一条 15 公里长的光纤线路,光纤通道和 10GbE 被多路复用(无源光 CWDM)。对于 FC,我们有适合长达 40 公里的长距离激光器(Skylane SFCxx0404F0D)。多路复用器受到最大 SFP 的限制。4Gb 光纤通道。FC 交换机是 Brocade 5000 系列。FC 的波长分别为 1550、1570、1590 和 1610nm,10GbE 的波长为 1530nm。
问题是 4GbFC 结构几乎从不干净。有时他们会持续一段时间,即使他们有很多流量。然后它们可能会突然开始产生错误(RX CRC、RX 编码、RX 差异,...),即使它们只有边际流量。我附上了一些错误和流量图。当流量为 1Gb/s 时,目前每 5 分钟出现 50-100 个错误。
光学
这是总结的一个端口的功率输出(sfpshow
在不同的交换机上收集)
SITE-A 单位=uW(微瓦) SITE-B ************************************************ FAB1 SW1 TX 1234.3 RX 49.1 SW3 1550nm (ko) 接收 95.2 发送 1175.6 FAB2 SW2 TX 1422.0 RX 104.6 SW4 1610nm(正常) 接收 54.3 发送 1468.4
在这一点上,我觉得奇怪的是功率水平的不对称性。SW2 以 1422uW 发射,SW4 以 104uW 接收,而 SW2 仅以 54uW 仅接收具有相似原始功率的 SW4 信号。
SW1-3 反之亦然。
无论如何,SFP 的 RX 灵敏度低至 -18dBm(约 20uW),所以无论如何它应该没问题……但什么都不是。
一些 SFP 已被制造商诊断为故障(上面显示的 1550nm 带有“ko”)。1610nm 显然没问题,它们已经使用流量生成器进行了测试。租用线路也经过了不止一次的测试。一切都在公差范围内。我正在等待替换,但出于某种原因,我不相信它会使事情变得更好,因为表面上好的那些也不会产生零错误。
早些时候,在将信号上线之前,涉及到有源设备(某种 4GFC 重定时器)。不知道为什么。由于问题,该设备被淘汰,所以我们现在只有:
- 开关中的长距离激光,
- (新)10m LC-SC 单模电缆连接到多路复用器(每个结构),
- 租用线路,
- 同样的事情,但在链接的另一侧反转了。
FC 交换机
这是来自 Brocade 的端口配置portcfgshow
(显然两边都是这样)
区号:0 速度等级:4G 填充字(On Active) 0(Idle-Idle) 填充字(当前) 0(空闲-空闲) AL_PA 偏移 13:关闭 中继端口开启 长距离LS VC 链接初始化关闭 所需距离 32 公里 保留缓冲区 70 锁定 L_Port 关闭 锁定 G_Port 关闭 禁用 E_Port 关闭 锁定 E_Port 关闭 ISL R_RDY 模式关闭 RSCN 抑制关闭 永久禁用关闭 LOS TOV 启用 OFF NPIV 功能开启 QOS E_Port 关闭 端口自动禁用:关闭 速率限制关闭 EX 端口关闭 镜像端口关闭 信用恢复开启 F_Port 缓冲区关闭 故障延迟:0(R_A_TOV) NPIV PP 限制:126 CSCTL 模式:关闭
强制链接到 2GbFC 不会产生任何错误,但我们购买了 4GbFC 并且我们想要 4GbFC。
我不知道该去哪里找了。有什么想法接下来要尝试什么或如何进行?
如果我们不能使 4GbFC 可靠地工作,我想知道使用 8 或 16 的人会做什么......我不认为“这里和那里的一些错误”是可以接受的。
哦,顺便说一句,我们与制造商的每个人(FC 交换机、MUX、SFP,...)都有联系,除了要更改的 SFP(之前已经更改过一些),没有人知道。Brocade SAN Health 表示结构正常。MUX,嗯,它是被动的,它只是一个棱镜,自然是最好的。
有没有在黑暗中拍摄?
附录:对您的问题的回答
@Chopper3:这是出现问题的第二代织锦。之前我们有 5000 个,现在我们有 5100 个。刚开始我们还有active MUX的时候租了一次长距离的激光器直接放到switch里面为了测试一天,那一天当然是干净的。但正如我所说,有时它就是那样干净。有时不是。替代交换机意味着使用仅用于测试的交换机来重建整个 SAN。替代 SFP,他们很难像那样获得。
@longneck:线路是租用的。它是一种深色光纤(9um 单模),所以上面没有其他光纤。当然有接头。我不能去看,但我必须相信他们做得对。正如我所说,这条线路已经过检查和重新检查(使用光学时域反射仪)。显然,您自己没有所有这些设备,因为它太贵了。
@mdpc:根据您的说法,“错误”的电缆类型是什么?直到开关,一切都是单模的,是的。连接器也是正确的。是的,我知道有些绿色的光纤以一定的角度被切断等。但据我所知,我们有正确的。
进度报告 #1
我们有两个带有 FabricOS 6.4.1 的 Brocade 5100 的结构(=2x2 交换机)和 FabricOS 7.0.2 上的两个结构(另一个 2x4 交换机)。
在长距离 ISL(每个结构中一个)上,FOS 6.4.1 将其设置为长距离会发出有关 VC Init 设置的警告,从而导致填充字。但这些只是警告。FOS 7.0.2要求您对 VCI 和长距离链接的填充词进行修改。
使用错误的 VCI 和填充字设置将 FOS 6.4.1 设置为 LS(长距离静态距离)设置会使整个结构无法运行(卡在 SCN 循环中,使用fabriclog -s
查看,在其他任何地方都看不到,没有端口错误计数器或任何增加的东西)。
目前,我正在给具有 IMHO 更正确设置的一种织物打一个跳动,它似乎做得很好,而另一种没有太多流量的织物仍然到处都有错误。
简而言之:
- 我们已经消除了 MUX 的活动部分(FC 重定时器)。
- 我们正在将长距离 SFP 本身放入终端设备中。
- 只是为了确保我们购买了新的单模电缆来将终端设备连接到 MUX 的剩余无源部分。
- 我们现在正在尝试几种长距离配置。
这几乎是黑魔法。发生的一切大多都是经验性的,似乎没有人知道做某事的确切原因是什么。(“我们已经尝试过,但没有成功,然后我们尝试了,它成功了,所以我们坚持这样做。”但似乎没有人真正知道为什么。)
我会及时通知你的。
进度报告 #2
我们在保修期内为其中一种织物购买了新的激光器。即使在 4GbFC 上也非常干净。
它们以大约 2mW (3dBm) 的功率传输,而其他的只有 1.5mW (1.5dBm),尽管这应该足够了。
另一种织物(激光显然没问题)仍然很少产生一两个CRC。
使用sfpshow
SFP 产生实际的 RX 错误显示
状态/控制:0x82 报警标志[0,1] = 0x5, 0x40 警告标志[0,1] = 0x5, 0x40
现在我得弄清楚这意味着什么。不确定它以前是否在那里。
好吧,我先用一周的假期来理清头绪。8-)
好的,我想我需要发布一个答案。一言以蔽之:坚持。
这个问题并没有按照我的喜好 100% 解决,因为我们仍然有一个织物偶尔会出现 1(一个)CRC 错误。另一个是干净的。但我可以忍受。
无论如何,我们不会在很长一段时间内继续使用 CWDM 单元,而是明年改用无源 DWDM 多路复用器,因为我们的基础设施将发生很大变化。显然,DWDM 激光器也比 CWDM 激光器便宜。哦,我们会看到的,也许我会有很多问题要问你:-)
更新上面的不行,我们又买了CWDM,而且真的便宜多了。然而,对于某些应用的 AFAICS,您必须使用 DWDM,因为它没有 CWDM 激光器。最后,我们试图尽可能地接近制造商,与从分销商甚至集成商处购买相比,整个产品的价格约为 1/5。
因此,我可以得出结论,如果您购买的解决方案无法按预期工作:坚持。在技术方面,我们做了两件事
(当然,所有的标准诊断,一次改变一件事,看看会发生什么等,不需要告诉你。所以我们也检查了每条线路和电缆等,不幸的是,费用由我们承担。)
在这种情况下,我们坚持了很长时间,但最终我们达到了制造商自己节省了一些人和一些设备来进行检查的程度。当然,我们让集成商支付了这笔费用,因为我们的硬件正在维护中。因此,这既是一项技术挑战,也是一项商业挑战。
PS。哦,我在上次更新中提到的标志并没有表明有什么不好,但我不记得它们的确切含义。当我找到声明时,为了完整起见,我会更新答案。
最后,旗帜毕竟意味着不好的东西。显然,但不确定链接的哪一侧是错误的原因。所以这对也必须改变。
哦,顺便说一句,8GbFC DWDM 收发器仅比 8G CWDM 便宜;-) 最便宜的方法是 CWDM 上的 4GbFC,然后使用 ISL 中继(如果您有许可证)