动机:
首先,即使我有一些计算机科学、软件开发和服务器 Linux 管理方面的知识,我也从未研究过服务器硬件,而且我完全是一个“新手”。对不起,如果这个问题对你们大多数人来说是微不足道的。
我正在开发一个具有非常密集(单点)计算需求的软件,为了达到所需的 TFlops,我选择了 OpenCL (2.1) 框架并在高端消费 AMD 显卡上执行大部分计算,主要使用 CPU驱动 GPU(Linux 操作系统)。我现在希望通过多台机器来扩展它。
看看如何组织这些机器,很快就发现标准(消费)ATX 塔并不理想:每个品牌都有自己的机箱形状,它们基本上不能在 19 英寸机箱中轻松方便地堆叠,具有良好的冷却气流、共享APC、管理线缆等。
带着这个目标,我开始寻找一个带有服务器的机柜,并发现:
- 为 Instinct/Tesla 等 HPC 设计的 GPU 的成本比消费级 GPU 高出一个数量级,主要是为了带来双浮点,这在消费级设备上是“慢”的(因为它们可以以这个价格卖给企业)。
- 即使使用这些 GPU,也需要 PCI-Express 垫片
- 支持 GPU 的服务器最多只能支持 2 个插槽的显卡(当前的高端消费 GPU 通常是 3 个插槽)。
- 我发现 ATX 3U 或 4U 机箱专为 19" 机柜设计。但是,嘿!安装其中一个使用消费类硬件将排除 ECC、多个 APC 等。
问题:
购买旨在托管 1 个或 2 个消费级 GPU 的服务器需要考虑什么?
我已经花了很多时间在网上寻找,但无法对这个问题有一个基本的了解,例如,以下是我想到的一些想法:
- 这是个好主意,甚至可能吗?一些文本(网页)抱怨难以使这些系统协同工作、不兼容、驱动程序问题等。
- 2U-3U服务器机箱能装3槽显卡吗?还是两个?
- 一些服务器(例如 Gigabyte Gxxx)是专门为带有 GPU 的 HPC 设计的,与标准(例如)HPE Proliant、IBM .. 服务器相比,这真的会带来什么不同吗?
- 大多数服务器是否支持消费级 GPU 卡所需的 PCI-express v4 x16?
- 服务器机箱中的气流是否与消费级 GPU 卡兼容(通常底部 3 个通风口)
- 电源连接有问题吗?
我们在我们的服务器中使用了很多 GPU——但只有一条规则要遵循;
仅使用制造商为您的确切服务器型号明确支持的部件。
不要打破这个规则。