Considere a NVIDIA Quadro RTX 8000 (especificações abaixo). Usá-lo para executar um único (precisão de 32 bits) fornece um desempenho teórico de 16,31 TFLOPS. Se reduzirmos a precisão para meia precisão (16 bits), o desempenho teórico dobra para 32,62 TFLOPS. No entanto, se reduzirmos pela metade a precisão de 32 bits para 64 bits, o desempenho teórico cai 32 vezes para 509,8 GFLOPS. Por que a perda de desempenho do FP32 para o FP64 é muito maior do que o ganho de desempenho da mudança do FP32 para o FP16?
Reconheço que isso nem sempre é o caso para cada GPU, mas minha impressão é que, para muitas GPUs, os ganhos de FP64 -> FP32 são muito maiores do que os ganhos de FP32 -> FP16.