我正在建立一个带有 infiniband 网络的 Linux 集群,而且我是 infiniband 世界的新手,任何建议都非常受欢迎!
我们目前正在使用 Mellanox OFED 驱动程序,但我们的 infiniband 卡很旧,并且无法被最新的 MOFED 驱动程序识别。所以我想知道为什么不使用发行版提供的驱动程序(运行 CentOS7)。
使用一个或另一个会有什么不同?我应该期待任何性能下降吗?
谢谢
我正在建立一个带有 infiniband 网络的 Linux 集群,而且我是 infiniband 世界的新手,任何建议都非常受欢迎!
我们目前正在使用 Mellanox OFED 驱动程序,但我们的 infiniband 卡很旧,并且无法被最新的 MOFED 驱动程序识别。所以我想知道为什么不使用发行版提供的驱动程序(运行 CentOS7)。
使用一个或另一个会有什么不同?我应该期待任何性能下降吗?
谢谢
通过不使用供应商 OFED 发行版,在这种情况下 Mellanox OFED 不仅会降低性能,还会出现功能不足和许多稳定性问题。
Infiniband 不像以太网那样坚如磐石,Infiniband 的主要目标是提供低延迟结构,而不仅仅是每个人通常认为的高吞吐量网络。
收件箱驱动程序(这就是 Mellanox 调用发行版中随附的 OFED 发行版的方式)充其量是不可靠的,如果您运行的卡比 Connect-X4 旧,如果需要,您在运行 IPoIB 时会遇到麻烦,只需保持启用即可最终会导致内核恐慌。性能很差,网络不可靠。
有一些替代方案,首先是 MLNX OFED 4.9,它是支持旧卡(如 Connect-X3)的 LTS 版本。我会坚持使用它,因为它受到支持并将长期支持。
不同之处在于对以下硬件和技术的支持:
从这里下载:https ://www.mellanox.com/products/infiniband-drivers/linux/mlnx_ofed
如果 Mellanox OFED 的 LTS 版本不适合您,另一种解决方案是迁移到 Oracle Linux,采用 UEK(Unbreakable Enterprise Kernel)并使用其 RDMA 发行版。至少 Oracle 测试了这个 OFED 版本,他们的 Exadata 产品使用了它。这里有可用的文档:https ://docs.oracle.com/en/operating-systems/uek/6/relnotes6.2/ol_instav.html#uek6_install_rdma
“收件箱”驱动程序已通过 Linux 问答流程和发行版问答。MOFED 驱动程序没有。
MOFED 中有严重的错误会阻止我们的代码在其下运行,并且 MOFED 中已禁用对旧硬件的支持。但它适用于收件箱/发行版驱动程序。
MOFED 是实验软件。如果系统偶尔会崩溃并且您想使用尚未成熟的尖端功能,这可能会很有用。