为什么pytorch损失达到最小值时不稳定，而keras损失保持稳定？

Question

JobHunter69

Asked: 2024-01-17 09:13:32 +0800 CST2024-01-17 09:13:32 +0800 CST 2024-01-17 09:13:32 +0800 CST

为什么我的 sigmoid 层会阻挡梯度？

772

import torch
import torch.optim as optim
import torch.nn as nn

input = torch.tensor([1.,2.], requires_grad=True)
sigmoid = nn.Sigmoid()

interm = sigmoid(input)

optimizer = optim.SGD([input], lr=1, momentum=0.9)

for epoch in range(5):
    optimizer.zero_grad()
    loss = torch.linalg.vector_norm(interm - torch.tensor([2.,2.]))
    print(epoch, loss, input, interm)

    loss.backward(retain_graph=True)
    optimizer.step()
    print(interm.grad)

因此，我创建了这个简化的示例，其中输入进入 sigmoid 作为中间激活函数。

我试图找到导致interm = [2.,2.]的输入

但梯度没有通过。有人知道为什么吗？

1 个回答

Voted

Karl · Answer 1 · 2024-01-17T09:39:29+08:00

计算叶张量的梯度。在您的示例中，input是叶张量，而interm不是。

当您尝试访问时interm.grad，您应该收到以下错误消息：

UserWarning: The .grad attribute of a Tensor that is not a leaf Tensor is being accessed. Its .grad attribute won't be populated during autograd.backward(). If you indeed want the .grad field to be populated for a non-leaf Tensor, use .retain_grad() on the non-leaf Tensor. If you access the non-leaf Tensor by mistake, make sure you access the leaf Tensor instead. See github.com/pytorch/pytorch/pull/30531 for more informations. (Triggered internally at aten/src/ATen/core/TensorBody.h:486.)

这是因为梯度被传播回叶张量input，而不是interm。interm.retain_grad()如果您想获取变量的等级，您可以添加interm。

但是，即使您这样做了，您的示例中也不会导致的值interm发生变化。每个优化器步骤都会更改input值，但这不会导致interm重新计算。如果要interm更新，则需要在每次迭代时使用新input值重新计算。IE：

for epoch in range(5):
    optimizer.zero_grad()
    interm = sigmoid(input)
    interm.retain_grad()
    loss = torch.linalg.vector_norm(interm - torch.tensor([2.,2.]))
    print(epoch, loss, input, interm)

    loss.backward(retain_graph=True)
    optimizer.step()
    print(interm.grad)

您正在尝试做的事情还存在一个根本问题。你说你想要input那个结果interm = [2., 2.]。然而，你正在计算interm = sigmoid(input)。sigmoid 函数的边界为(0, 1). 不存在input会导致的值interm = [2., 2.]，因为2超出了 sigmoid 函数的范围。如果无限期地运行优化循环，您将得到input = [inf, inf]和interm = [1., 1.]。

为什么我的 sigmoid 层会阻挡梯度？

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

为什么我的 sigmoid 层会阻挡梯度？

1 个回答

相关问题