我们使用大量 GPGPU 计算(主要使用 CUDA,但也有一些使用 OpenCL)。通常,当用户运行代码时,代码只会在我们的一台主机上因内存错误而出错。我怀疑其中一张卡有问题。有时它会导致整个系统瘫痪,有时程序会崩溃。
全面测试 GPU 可能出现的故障的最简单、最快和最彻底的方法是什么?
我知道有一些程序是 nvidia 的 CUDA SDK 的一部分:
deviceQuery
nvidia-smi
但我需要更彻底的东西。建议?经验?
我们使用大量 GPGPU 计算(主要使用 CUDA,但也有一些使用 OpenCL)。通常,当用户运行代码时,代码只会在我们的一台主机上因内存错误而出错。我怀疑其中一张卡有问题。有时它会导致整个系统瘫痪,有时程序会崩溃。
全面测试 GPU 可能出现的故障的最简单、最快和最彻底的方法是什么?
我知道有一些程序是 nvidia 的 CUDA SDK 的一部分:
deviceQuery
nvidia-smi
但我需要更彻底的东西。建议?经验?