我怀疑这可能是一个无法回答的问题,唯一的解决方案是重建,但无论如何我都会问。
昨晚,一些内部进程在办公室的 Smoothwall 防火墙上停止工作,表现出以下外部迹象:
- 停止响应任何一方的 SSH 和 HTTPS 连接尝试。没有拒绝他们,只是没有回应。
- 尝试在控制台登录时挂起 - 输入了用户名,但提示从未返回密码
- 客户端 Internet 浏览失败,因为 squid 没有响应
所有“通过”流量都很好。即电子邮件、DNS、PPTP 等流量在两个方向上不间断地流动。到其他服务器的入站 HTTPS 也可以正常工作。从用户的角度来看,只有 Internet 浏览受到影响。由于这发生在办公时间之外,没有人更聪明。多亏了 Nagios 警报,我才了解到它。
日志中绝对没有任何内容表明存在问题,实际上所有日志记录也同时停止。在失败之前,日志中没有任何内容表明存在任何外部原因。按下重置按钮(唯一的选项,因为我无法登录)使系统像往常一样恢复,在过去 4 小时内没有任何问题。
我正在寻找的是可以解释为什么某些系统在没有警告的情况下失败而对流经的流量没有明显不利影响的理论。也许比他们自己更了解的人可以识别出故障部分的共同点。
听起来是否与硬件相关 - 拥有一个活动系统(内核显然仍在 NATing)是不寻常的,但许多进程已死 - 例如。SSH 和鱿鱼。我自己会把怀疑的手指指向磁盘 - 当我看到冰沙做这种把戏时(我见过一些..在SmoothWall工作了 6 年以上!)它有 10 次中有 9 次与磁盘相关.
在过去的几天里,我一直遇到同样的问题。我正在运行 Smoothwall Express 3.0。每当我通过 torrent 下载大文件时,这个东西就会被锁定。我在支持论坛上读到,这可能是由于打开的连接过多而导致的,因此填满了所有 RAM。我尝试更改防火墙设置之一,以每 2 分钟而不是默认的每 2.5 小时关闭这些非活动连接。这似乎有所帮助,但现在问题再次出现。这台机器是 500MHz 和 192MB 的 RAM。
无论问题是什么,系统都应该优雅地失败 - 而不是它目前正在做什么。是时候尝试一些我认为的新东西了。