我的公司几乎完全是一家 Windows 商店:Microsoft 防火墙、所有 Windows 服务器等。硬件大多是 Cisco 或类似 Cisco。大约三周以来,我们经历了“随机”的网络中断。它们不是很长,但它们会发生并中断工作流程*。它们不会同时发生。我们不知道是什么改变使它们开始发生。我们询问了 Optimum Lightpath,他们的系统运行良好,所以问题似乎出在内部。
您将如何解决此问题/设置日志以解析/正确设置wireshark的过滤器(我知道,我知道-RTFM ...)/牺牲一只山羊?
- 工作流中断:任何需要访问服务器(例如网页或数据库访问)的工作都会被中断。
在这里复制 dashmir 的消息,因为它包含大部分相关信息:
希望我今天可能由于转换错误而解决了这个问题,但我们是一家多专业的医师诊所。我们有 3 个使用暗光纤连接的建筑物和 22 个远程站点。一半是使用电子线路连接,另一半是站点到站点 vpn。
中断时间很短,大约 10-15 秒,但足以破坏工作流程和混乱。使用 EMR 的医生大多在尖叫。然后一切恢复正常。
所有交换机、服务器、应用程序等之间的连接丢失。
我们在 CCR 集群中进行了交换。防火墙同样具有容错性并进行负载平衡,这些是我们的交换机和防火墙上的一些错误。
事件 ID 1135 - 群集服务启动 更新日期:2009 年 11 月 25 日 适用于:Windows Server 2008 R2
群集服务是控制故障转移群集操作的各个方面和管理群集配置数据库的基本软件组件。如果群集服务无法在故障转移群集节点上启动,则该节点无法作为群集的一部分运行。
事件详细信息
产品:Windows 操作系统
ID:1135
来源:Microsoft-Windows-FailoverClustering
版本:6.1
符号名称:EVENT_NODE_DOWN
消息:群集节点“%1”已从活动故障转移群集成员中删除。此节点上的群集服务可能已停止。这也可能是由于该节点与故障转移群集中的其他活动节点失去了通信。运行验证配置向导以检查您的网络配置。如果情况仍然存在,请检查与此节点上的网络适配器相关的硬件或软件错误。还要检查节点连接到的任何其他网络组件(例如集线器、交换机或网桥)中的故障。解决 检查网络硬件和配置 如果您当前没有打开事件查看器,请参阅“打开事件查看器并查看与故障转移群集相关的事件”。查看事件消息后,选择适用于您的情况的操作:• 运行验证配置向导,仅选择网络和清单测试。有关详细信息,请参阅“使用验证配置向导查看网络配置”。* 检查系统事件日志中与此节点上的网络适配器相关的硬件或软件错误。* 检查连接节点的网络的网络适配器、电缆和网络配置。* 检查连接节点的网络中的集线器、交换机或网桥。要执行以下过程,您必须是每台群集服务器上本地管理员组的成员,并且您使用的帐户必须是域帐户,或者您必须被委派了等效权限。
1. 要打开故障转移群集管理单元,请单击开始,单击管理工具,然后单击故障转移群集管理。如果出现“用户帐户控制”对话框,请确认它显示的操作是您想要的,然后单击“继续”。
2. 在故障转移群集管理管理单元的控制台树中,确保选择了故障转移群集管理。然后在管理下,单击验证配置。
3. 按照向导中的说明指定要测试的集群。
4. 在测试选项页面上,选择仅运行我选择的测试。
5. 在测试选择页面上,清除除网络测试之外的所有复选框。
6. 按照向导中的说明运行测试。
7. 在摘要页面上,单击查看报告。打开事件查看器并查看与故障转移群集相关的事件 要打开事件查看器并查看与故障转移群集相关的事件:
1. 如果服务器管理器尚未打开,请单击开始,单击管理工具,然后单击服务器管理器。如果出现“用户帐户控制”对话框,请确认它显示的操作是您想要的,然后单击“继续”。
2. 在控制台树中,依次展开诊断、事件查看器、Windows 日志,然后单击系统。
3. 要过滤事件以便仅显示具有 FailoverClustering 源的事件,请在“操作”窗格中,单击“过滤当前日志”。在“过滤器”选项卡的“事件源”框中,选择 FailoverClustering。根据需要选择其他选项,然后单击确定。
4. 要按日期和时间对显示的事件进行排序,请在中心窗格中单击日期和时间列标题。验证 要执行此过程,您必须是每台群集服务器上本地管理员组的成员,并且您使用的帐户必须是域帐户,或者您必须被委派了等效权限。验证群集服务是否已在故障转移群集中的所有节点上启动 要验证群集服务是否已在故障转移群集中的所有节点上启动:
1. 要打开故障转移群集管理单元,请单击开始,单击管理工具,然后单击故障转移群集管理。如果出现“用户帐户控制”对话框,请确认它显示的操作是您想要的,然后单击“继续”。
2. 在“故障转移集群管理”管理单元中,如果未显示您要管理的集群,请在控制台树中,右键单击“故障转移集群管理”,单击“管理集群”,然后选择或指定所需的集群。
3. 如果控制台树已折叠,展开您要管理的集群下的树,然后单击节点。
4. 查看每个节点的状态。如果某个节点已启动,则在该节点上启动集群服务。检查集群服务是否启动的另一种方法是在集群中的节点上运行命令。使用命令查看节点是否启动了集群服务 使用命令查看节点是否启动了集群服务:
1. 在您正在检查的节点上,单击开始,指向所有程序,单击附件,右键单击命令提示符,然后单击以管理员身份运行。
2. 键入:CLUSTER NODE /STATUS 如果节点状态为 Up,则在该节点上启动集群服务。相关管理信息
这些是我在防火墙上看到的一些错误。
事件类型:警告事件源:WLBS 事件类别:无事件 ID:18 日期:2/9/2010 时间:下午 6:09:47 用户:N/A 计算机:HAWKEYE 描述:NLB 群集 172.16.2.35:重复的群集子网检测到。网络可能已被无意分割。
以下 Windows NT 负载平衡服务 (WLBS) 事件 18 出现在事件查看器中:检测到重复的群集子网。网络可能已被无意分割。WLBS 集群似乎运行正常。回到顶端 原因 在重新合并已拆分为多个群集的群集时会生成此事件。此事件可能由以下原因引起: • 拉动服务器上的网络分流器,这将导致服务器与其自身聚合并形成两个集群。• 如果集群部署在两台交换机之间,则切断它们之间的中继线。• 发生故障的交换机或因网络拥塞而泛滥的交换机。回到顶端 解决方案 在对集群进行分区期间,集群的成员会聚到两个或多个单独的集群中。此事件是一条信息性消息,报告网络已分区,并且 WLBS 主机现在已正确聚合在一个集群中。此事件是良性的,但如果重复记录,则可能是底层网络存在问题,或者网络基础设施可能不足以处理流量。
您需要准确缩小中断的性质。
好的,经过一周的剖析我的网络后,我得出了一个结论。
这项工作很乏味,但必须完成。我最终去了每个站点,把所有东西都拔掉,然后一次重新连接所有交换机。
我在建筑物和 2 个具有相同 IP 地址的交换机之间发现了另一个环路。现在一切正常。
谢谢