考虑一下NVIDIA Quadro RTX 8000(规格如下)。使用它来执行单次(32 位精度)的理论性能为 16.31 TFLOPS。如果我们将精度降低到半精度(16 位),理论性能翻倍至 32.62 TFLOPS。但是,如果我们将精度从 32 位减半到 64 位,理论性能下降32 倍至 509.8 GFLOPS。为什么从 FP32 到 FP64 的性能损失比从 FP32 到 FP16 的性能提升要大得多?
我认识到每个 GPU 并非总是如此,但我的印象是,对于许多 GPU,从 FP64 -> FP32 获得的收益远大于从 FP32 -> FP16 获得的收益。