我正在研究云计算服务(例如,AWS 以及其他)是否可以切实地补充我一直用来解决流体动力学问题的传统集群(例如 Comet、Stampede2、Pleiades)。
也就是说,我需要运行我的代码(而不是AWS 在他们的其中一个计划中宣传的 OpenFOAM),并且它需要 ~1TB RAM ~360 个具有快速互连的处理器(并且位于同一位置以最小化延迟)。
更普遍的问题是:云计算是否意味着一切都在一些未知的、可能是小型的机器上虚拟化,或者可以通过云计算请求使用特定的硬件(在这种情况下,它的使用方式与传统的集群,但分配过程可能有很大不同)?
AWS 提供专为运行 HANA DB(内存中 DB)而设计的高内存纯金属配置,在撰写本文时,其中最小的配置从 6TB RAM 开始,具有 224 个内核,总共 448 个逻辑处理器。
如果这不能满足您的需求,您将不得不去其他地方,例如Virtustream(一家戴尔技术公司),它可以满足业务关键型云系统的需求。
免责声明:我为 Virtustream 工作... ¯\_(ツ)_/¯
在大型公共云中,AWS和Azure声称拥有以低延迟网络连接实例的解决方案。应用程序像往常一样有一个 MPI 实现作为目标。
在某些情况下,您可以更接近地影响实例放置,例如使用集群策略中的 AWS 放置组。他们不会说任何一种方式,但大概这不是专用于 HPC 的机架。只需配备最快的硬件和软件加速 NIC的机架,即可使用单租户或专用金属节点。
或者,如果应用程序可以在大型 NUMA 系统上扩展,也可以考虑这一点。NUMA 仍然具有节点间延迟,但足以运行单个图像。
对于 x86,截至 2019 年,最新的 Xeon 提供了总共 224 个内核的 8 个插槽。更多的插槽需要自定义互连,只有在 HPE Superdome Flex Server 等稀有野兽上才能看到。前者可作为高内存 AWS 实例使用,后者不太可能在云中租用。
对于 POWER,标准配置中存在像 E980 这样的 16 插槽系统,但内核数量并不多。