到目前为止,我有 10 台面向高性能计算的服务器。我的用户需要使用 qmake 启动多个进程。用户习惯于使用 ubuntu 9.10,并且存储库中的软件对他们来说是可切换的。
我已将 ubuntu 9.10 部署到所有 10 台服务器(pxe 岩石)。
到目前为止,我们使用的是 parallel-ssh 和 cluster-ssh,它允许向所有服务器启动相同的进程。使用此工具,该工具服务器保持独立,但具有相同的软件和相同的启动命令。
现在我们想进入下一步,将所有服务器视为一个单独的服务器,其中包含来自其他 9 台的所有资源,就好像它的资源一样。
处理时间和设计启动命令的时间差异很大。
关于使用哪种软件的任何建议都会非常有用?
谢谢
您所说的称为Single System Image (SSI)。用于 Linux 的该方案最常见的变体是由MOSIX实现的。虽然它在系统管理方面确实提供了一些优势,但一般来说,如果不使用某种形式的MPI,进程就不能跨越多个节点。基本上,无论您是使用在 gridengine 上运行的“标准”集群还是将您的系统组成一个映像,您仍然需要修改所有软件以能够跨越多个节点。
集群在性能方面不是单台机器,fs/内存位置对性能很重要。
在应用程序级别做事,虽然不太通用,但资源效率更高。通过设置 distcc 可以显着加快您的 qmake 示例。
最后我使用了 Sun Grid Engine。
我已在私人 wiki 中记录,并剪切并粘贴在我的博客上。我认为即使没有翻译也很有用。;)
博客条目:http ://suportrecerca.barcelonamedia.org/blog/?p=240
如果有人想要 wiki 代码,请在此处询问。
谢谢。
我以前从未实现过,但听起来beowulf 集群可以满足您的要求。过去我已经对此进行了大量阅读,对于一些更简单的过程,根据您要实现的目标,可能需要很少的重新编码。