表示小于单精度最小值的数

Question

yahoic

Asked: 2024-07-16 00:16:31 +0800 CST2024-07-16 00:16:31 +0800 CST 2024-07-16 00:16:31 +0800 CST

浮点乘法中如何舍入？

772

浮点数的精确值0.7f是，0.69999...
所以我认为的结果0.7f * 100f应该是低于的某个值70，例如69.99999...
但结果是精确的 70。
浮点乘法是否涉及这样的舍入？

如果是这样，这种后处理是否也适用于定点？
我在一些定点库中发现FP(100) * FP(0.7) is 69.99999。
当将其转换为 int 时，它们会无情地截断，我得到69。这是不可取的，因为 FP 可以表达精确的70。

1 个回答

Voted

Steve Summit · Answer 1 · 2024-07-16T03:27:24+08:00

有限精度二进制浮点数不能准确地表示每一个实数（或每一个十进制数），但它应该始终表示最接近的数。

有限精度浮点运算也无法计算所有可能的结果，但它需要（至少在一般情况下）计算正确舍入的结果。

与 0.7 对应的精确（最接近可表示的）单精度浮点数是0b0.101100110011001100110011，转换回十进制时为 0.699999988079071044921875。请注意，此数字有 24 个有效位，这是 IEEE-754 单精度定义的一部分。

将此数字乘以 100 可得出0b1000101.1111111111111111111011。但该数字有 29 个有效位，因此无法容纳单精度可用的 24 个有效位。因此我们必须将其四舍五入。现在，第 25 位是 1，因此我们将其四舍五入，并且第 25 位左侧的几乎所有位都是 1，因此它会一直四舍五入到0b1000110.00000000000000000，或者正好是 70.0。

请注意，尽管单精度浮点数具有 24 位有效位，但涉及单精度浮点数的计算必须暂时使用超过24 位的精度，以便可以计算第 24 位以外的几位，从而可以根据要求对结果进行正确舍入。

这是 IEEE-754 关于正确舍入结果的规则如何运作的一个很好的例子，而且效果很好。很容易产生（错误的）印象，认为浮点值总是至少有一点偏差，如果不是完全错误的话。但事实上，IEEE-754 浮点算术通常非常精确，并且会尽力防止错误累积 — 这意味着，错误经常会相互抵消，最终产生精确的结果。这基本上就是这里发生的事情。

或者换句话说，规则并不是浮点计算总是不精确的。真正的规则是浮点计算有时不精确— 但有时也非常精确。

（事实上，一个更好的规则是，与预期的十进制结果相比，浮点计算通常不精确。如果您取两个二进制浮点数并对它们进行运算，您几乎总是会得到一个非常精确的结果 - 以二进制表示。我的观点是，大多数明显的不准确性仅当您将二进制结果与您以其他方式计算的十进制结果进行比较时才会发生。）

如果上面的解释对你来说不适用，那么这里有另一种看待它的方式。众所周知，浮点表示不能表示每个数字。事实上，它们无法用二进制表示的数字之一是 0.7，而最接近的可用单精度表示的数字是等于 0.699999988079071044921875 的二进制数。

现在，如果我们将这个数字 0.699999988079071044921875 乘以 100，结果会怎样？准确结果应该是 69.9999988079071044921875。但这是另一个无法准确表示的数字。如果您取这个无法表示的数字 69.9999988079071044921875，并询问可以用单精度准确表示的最接近的数字是什么，这个数字是……70.0！在单精度中，下一个小于该数字的可表示数字是 69.99999237060546875，它比 70.0 更远（在本例中是 5 倍以上）。

您还询问了定点库。答案显然取决于实现，但更重要的是取决于基数。二进制定点库也无法准确表示 0.7。但十进制定点库显然可以。

我认为，0.7 的“16.16”二进制定点表示将是0000000010110011（基数 2）或00b3（基数 16）或 179（基数 10），将其转换回分数是 0.69921875。将其乘以 100 可得出100010111101100/ 45ec/ 17900，将其转换回 69.921875。因此，在这些假设下，我认为没有更好的方法（即没有办法得到 70.0）。

但是如果十进制定点库在乘法后给出 69，我会说它实现得相当糟糕。0.7 的 16 位定点十进制表示法，其比例因子为 100，结果为 70，乘以 100 得到 7000，再除以比例因子显然得到 70.0。

浮点乘法中如何舍入？

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

浮点乘法中如何舍入？

1 个回答

相关问题