我有一个 F5 LTM 负载平衡多个服务器。如果其中一台服务器出现故障然后恢复,我是否可以让 LTM 将其标记为停机/处于维护状态,直到我手动重新启用它?
LTM 的默认行为是如果运行状况检查通过,则使负载平衡节点再次可用于池。如果服务器由于某种原因崩溃并重新启动,客户端可以连接到它,这不是我想要发生的。我希望能够让池成员脱机,直到我能弄清楚服务器出了什么问题。
我有一个 F5 LTM 负载平衡多个服务器。如果其中一台服务器出现故障然后恢复,我是否可以让 LTM 将其标记为停机/处于维护状态,直到我手动重新启用它?
LTM 的默认行为是如果运行状况检查通过,则使负载平衡节点再次可用于池。如果服务器由于某种原因崩溃并重新启动,客户端可以连接到它,这不是我想要发生的。我希望能够让池成员脱机,直到我能弄清楚服务器出了什么问题。
您对CVE-2020-5902漏洞的解决方法有任何想法吗?
我目前无法更新,但我很担心,因为它是一个严重漏洞。
我正在尝试设置一个 kubernetes pod,以便它连接到设备,特别是 F5 BIG-IP 设备。
部署似乎没问题,实际上我不得不修改我在网上找到的代码片段。
当 Pod 尝试启动时,出现错误。于是我开始了我的调查:
运行kubectl logs <pod_name> -n <namespace>
返回错误:
REST call error: Get <URL>: x509: cannot validate certificate for <IP> because it doesn't contain any IP SANs
通过查看界面上的 wireshark 转储,我发现有一个 TLS 1.2 警报(致命),其中包含从客户端发送到服务器的“错误证书”的描述。
所以我上网查了一下,发现有文章说kubernetes 尝试连接服务器但没有识别出问题——至少我认为他们是这个意思。建议的解决方法之一是应用 DNS 名称,因此我修改了/etc/hosts
文件以便在部署 YAML 文件中使用 DNS 名称。
结果是错误消息变为:
REST call error: Get <URL>: dial tcp: lookup <hostname>: device or resource busy
关于问题可能是什么以及如何解决它的任何想法?
这是一个测试环境,所以我不介意——让我说——“非正统”的方法,比如忽略证书检查,但如果有我最终可以投入生产的解决方案或变通方法,我将不胜感激。
感谢您提供的任何意见。
我在 F5 中有一个要求,我必须配置多个池,并且所有池都将使用单个虚拟服务器 [1 VIP] 来接收来自外部世界的流量。我试图找出实现这一目标所需的任何特定配置。到目前为止,当我将默认池分配给虚拟服务器时,我的 F5 配置正在工作,因为我必须使用 1 个 VIP 和托管在其上的多个客户端,所以我被困在这一点上。有人可以在这里帮助我吗?
我的环境是 4 台运行 Nginx 的 Ubuntu 14.04 服务器,位于 F5 负载均衡器后面。他们正在向 Datadog 发送指标,并通过 SNMP 从 F5 中提取指标以发送到 Datadog。
开发团队需要能够监控 HTTP 代码。我无法从服务器端的 Nginx 中提取它们,因为只有 Nginx Plus 才有可能。我曾考虑通过阅读访问日志和其他内容来构建一些内部解决方案,但我真的不想走那条路。所以接下来我看了看 F5,但都无法抓住它们。
此 OID 返回值 0:sysStatHttpRequests::1.3.6.1.4.1.3375.2.1.1.2.1.56
我知道这是不正确的,因为我每秒向 VIP 发送大约 1000 个 HTTP 请求。以下还返回值 0:
sysFastHttpStatResp2xxCnt 1.3.6.1.4.1.3375.2.1.1.2.14.16
sysFastHttpStatResp3xxCnt 1.3.6.1.4.1.3375.2.1.1.2.14.17
sysFastHttpStatResp4xxCnt 1.3.6.1.4.1.3375.2.1.1.2.14.18
sysFastHttpStatResp5xxCnt 1.3.6.1.4.1.3375.2.1.1.2.14.19
SNMP 正在工作,因为我能够提取其他指标,例如吞吐量、连接等……有人对如何在此环境中提取 HTTP 代码指标有任何想法吗?或者也许我完全错过了我需要在 F5 上设置的东西才能做到这一点。
编辑:解决了我自己的问题。必须在 F5 上配置 AVR,然后将 HTTP 配置文件应用到虚拟服务器。
我有一对运行版本的 HA 对 F5 BIG-IP 设备11.5.3 Build 1.0.167 Hotfix HF1
。我目前有一个连接到大约 200 个虚拟服务器的 iRule,它可以对某些类型的事件进行高速日志记录。我需要更新这个 iRule,但我担心现有连接会发生什么。它们会被破坏还是继续使用旧版本的 iRule 运行?这些虚拟服务器中有许多是为我们的 ERP 系统服务的,因此连接中断基本上是不可接受的。
据我所知,一个 TCP/IP 栈最多只能维持 65535 个并发连接;在阅读一些 F5 BigIP 负载均衡器的白皮书时,我发现它们可以容纳数百万个并发连接;
我特别关注的是最低端模型,即 2000 年代,它声称它可以维持 500 万个并发连接。
在操作系统级别,这是如何管理的?每个铜/光纤链路只能有 65535 个吗?这是否意味着它需要 75 个以上的上行链路连接才能达到这个限制?
我们有一个 BIP-IP 6400 LTM 设备以惊人的频率杀死进程。CPU 的利用率始终保持在 23% 左右,因此这不是问题。
这是来自的示例/var/log/ltm
:
Oct 7 08:21:55 local/pri-4600 info bigd[3471]: reap_child: child process PID = 25338 exited with signal = 9
Oct 7 08:22:15 local/pri-4600 info bigd[3471]: reap_child: child process PID = 25587 exited with signal = 9
Oct 7 08:22:34 local/pri-4600 info bigd[3471]: reap_child: child process PID = 25793 exited with signal = 9
Oct 7 08:23:10 local/pri-4600 info bigd[3471]: reap_child: child process PID = 26260 exited with signal = 9
Oct 7 08:23:36 local/pri-4600 info bigd[3471]: reap_child: child process PID = 26584 exited with signal = 9
Oct 7 08:23:40 local/pri-4600 info bigd[3471]: reap_child: child process PID = 26647 exited with signal = 9
Oct 7 08:23:45 local/pri-4600 info bigd[3471]: reap_child: child process PID = 26699 exited with signal = 9
Oct 7 08:23:55 local/pri-4600 info bigd[3471]: reap_child: child process PID = 26805 exited with signal = 9
Oct 7 08:25:36 local/pri-4600 info bigd[3471]: reap_child: child process PID = 28079 exited with signal = 9
Oct 7 08:27:15 local/pri-4600 info bigd[3471]: reap_child: child process PID = 29286 exited with signal = 9
Oct 7 08:27:16 local/pri-4600 info bigd[3471]: reap_child: child process PID = 29307 exited with signal = 9
Oct 7 08:27:56 local/pri-4600 info bigd[3471]: reap_child: child process PID = 29793 exited with signal = 9
Oct 7 08:29:20 local/pri-4600 info bigd[3471]: reap_child: child process PID = 30851 exited with signal = 9
Oct 7 08:33:00 local/pri-4600 info bigd[3471]: reap_child: child process PID = 1122 exited with signal = 9
Oct 7 08:33:16 local/pri-4600 info bigd[3471]: reap_child: child process PID = 1299 exited with signal = 9
Oct 7 08:34:15 local/pri-4600 info bigd[3471]: reap_child: child process PID = 2054 exited with signal = 9
Oct 7 08:35:16 local/pri-4600 info bigd[3471]: reap_child: child process PID = 2784 exited with signal = 9
Oct 7 08:35:16 local/pri-4600 info bigd[3471]: reap_child: child process PID = 2807 exited with signal = 9
Oct 7 08:35:35 local/pri-4600 info bigd[3471]: reap_child: child process PID = 3015 exited with signal = 9
Oct 7 08:36:15 local/pri-4600 info bigd[3471]: reap_child: child process PID = 3601 exited with signal = 9
这是正常的吗?如果不是,是什么原因导致这种情况发生?
我管理着几个 F5 LTM 设备,这些设备配置的虚拟服务器数量迅速增加(现在大约 500 个)。我注意到,当设备列出虚拟服务器时,它会按字母顺序排列,没有重新排序的选项。这让我想知道,每次建立连接时设备会检查整个列表吗?如果是这样,列表的大小如何影响性能?