我正在尝试建立一个由 8 台计算机和一个主文件服务器组成的集群。理想情况下,我想在 pxe-boot、准无盘/准无状态环境中进行设置(即,唯一的本地存储是/var
,扭矩配置之类的东西会去的地方)。8 个计算节点中的每一个都有 4 个 NVIDIA Tesla K40m,但根文件服务器没有 GPU。
理想情况下,我希望能够在文件服务器 (at /node
) 上创建完整的安装,然后 PXE 将其引导到计算节点,但是,我还没有找到在没有 NVIDIA GPU 的情况下安装 NVIDIA 驱动程序的方法木板。我在 NVIDIA 的论坛上发现了一个关于有人尝试此操作未成功的问题...
或者,我可以将 NVIDIA 驱动程序安装到一个计算节点(一个当前在其本地磁盘上运行 CentOS)以(例如)/usr/local/nvidia
并跟踪它创建的文件并创建一个 tarball 以复制到文件服务器安装。
最后,我可以只维护八个独立的安装,但是,从长期维护的角度来看,我不喜欢这样(每个计算节点都将运行扭矩作业,所以我希望节点看起来或多或少相同) .
总之,我要求的是:
- 我可以在没有板载 NVIDIA GPU 的情况下安装 NVIDIA 驱动程序吗?
- 我还有其他方法可以解决这个问题吗?
作为参考,我们正在运行 CentOS 7。
[root@compute-3 /]# uname -a
Linux compute-3 3.10.0-514.2.2.el7.x86_64 #1 SMP Tue Dec 6 23:06:41 UTC 2016 x86_64 x86_64 x86_64 GNU/Linux
像其他所有东西一样使用 RPM 包。
目前最好的NVIDIA 驱动程序包来自 Negativo17。