对于简单的数学运算,例如sqrt(2)
,,,,,1 / 2
等等, CPU 是否包含某种硬件表,其中包含这些运算的结果,因此它们实际上不是“1 + 1
计算”的,而是从某种字典或“数学缓存”中获取的,以便更快地处理?当然,我预计有些人会问“谁来定义什么是‘简单’数学运算?”,但我只是很好奇。10^2
1 * 0
tan(45)
对于简单的数学运算,例如sqrt(2)
,,,,,1 / 2
等等, CPU 是否包含某种硬件表,其中包含这些运算的结果,因此它们实际上不是“1 + 1
计算”的,而是从某种字典或“数学缓存”中获取的,以便更快地处理?当然,我预计有些人会问“谁来定义什么是‘简单’数学运算?”,但我只是很好奇。10^2
1 * 0
tan(45)
不,如果重复值很常见,则由软件来实现缓存。
我从未听说过任何 CPU 会缓存计算指令的结果,即使是像浮点除法或平方根或整数除法这样较慢的指令。(尽管在最新的 CPU 上,这些指令也没有那么慢,比如
idiv r32
Zen 4 上的 9 个周期延迟和 6 个周期吞吐量)。即使是 x86 性能核心和 Apple M1 系列等具有大量晶体管预算的“大型”CPU 也不会这样做。缓存会占用一些芯片面积,并且需要额外的电力来检查和更新缓存,如果缓存几乎每次操作都失败,则没有任何好处。这种情况很常见,因为很多用例处理非冗余数据。
花费晶体管和功率预算来为所有操作提供更好的吞吐量更有意义,这就是真正的高性能 CPU 所做的:用于常见操作(如 (SIMD) FP mul 或 FMA)的多个执行管道,每个执行管道都可以在每个时钟周期启动一个新操作。
对于任何更简单的操作,例如 FP 或整数加/减或乘法,缓存实际上都会适得其反。这些操作具有不依赖于数据的短延迟,因此无序执行的调度程序知道它们将在哪个时钟周期产生结果。从而可以避免写回冲突。例如,如果您在 2 个周期前启动了 3 个周期延迟的整数乘法,则将 1 个周期的整数加法发送到该执行端口将导致两个结果在下一个周期就绪,但通常只有一组线路可以将结果从该执行端口上的 ALU 传送到它们需要去的地方(寄存器文件和旁路转发网络)。请参阅Agner Fog微架构指南的 Sandybridge 部分中有关标准化 uop 延迟的部分,这节省了调度程序的功耗。(后来的英特尔 uarches 又添加了具有更多不同延迟的 uops。)
乘法器非常耗电(因为许多门都在切换),但除非您牺牲缓存未命中情况的延迟,否则您无法节省电量。为了保持较低的延迟,硬件将并行启动乘法,同时检查其最近操作数的缓存。(对于 64x64 -> 64 位乘法,它将具有 128 位标签和 64 位数据。因此,并行比较器必须比加载/存储单元宽得多。)命中后,您可以在 1 或 2 个周期后产生输出,而不是通常的 3 到 5 个周期。
整数加法通常已经具有 1 个周期延迟,并且每个时钟的吞吐量很高。(例如,最近的 Intel 和 AMD 每时钟 4 个)。也可以进行 SIMD 矢量化以实现高吞吐量计算,
uint32_t
每条指令执行 8 次加法(x86 带有 AVX2),每时钟最多执行 3 次。因此,如果您要为这些操作设置缓存,则需要一个具有 24 个读取端口的缓存!!(或在每个执行单元中设置单独的小缓存)。SIMD 整数和 FP 乘法的吞吐量也相当高,例如每时钟 2 条指令,延迟为 4 或 5 个周期。即使在缓存命中的情况下,执行整数加法也比检查缓存更便宜,尤其是使用 SIMD 时,只需一次指令(或微操作)通过管道即可并行执行多个加法。
当然,CPU 可以在一条 asm 指令中完成这一操作。即使指令序列是连续的,丢弃整个指令序列的可能性似乎也更小,而且尝试识别重复的计算模式所需的功率更大。中间结果可能会留在寄存器中,这些寄存器在被覆盖之前也会被读取,在这种情况下,这些输出也是需要缓存的可见副作用。
最有用的情况是慢速 x87 指令,例如
fsincos
andfyl2x
(可能用于pow
orlog
函数)。但 x87 几乎已经过时,大多数软件都不使用。egfsincos
在 Ice Lake 上被微编码为 60-120 uops。大多数 CPU 没有指数运算指令,尽管
x^2
CPU 本身只支持单次乘法。