Por que a perda de pytorch é instável quando atinge o mínimo, enquanto a perda de keras permanece estável?

Question

JobHunter69

Asked: 2024-01-17 09:13:32 +0800 CST2024-01-17 09:13:32 +0800 CST 2024-01-17 09:13:32 +0800 CST

Por que minha camada sigmóide está bloqueando gradientes?

772

import torch
import torch.optim as optim
import torch.nn as nn

input = torch.tensor([1.,2.], requires_grad=True)
sigmoid = nn.Sigmoid()

interm = sigmoid(input)

optimizer = optim.SGD([input], lr=1, momentum=0.9)

for epoch in range(5):
    optimizer.zero_grad()
    loss = torch.linalg.vector_norm(interm - torch.tensor([2.,2.]))
    print(epoch, loss, input, interm)

    loss.backward(retain_graph=True)
    optimizer.step()
    print(interm.grad)

Então criei este exemplo simplificado com uma entrada entrando em um sigmóide como uma função de ativação intermediária.

Estou tentando encontrar a entrada que resulta em interm = [2.,2.]

Mas os gradientes não estão passando. Alguém sabe por quê?

1 respostas

Voted

Karl · Answer 1 · 2024-01-17T09:39:29+08:00

Grados são calculados para tensores de folha. No seu exemplo, inputé um tensor folha, enquanto intermnão é.

Ao tentar acessar interm.grad, você deverá receber a seguinte mensagem de erro:

UserWarning: The .grad attribute of a Tensor that is not a leaf Tensor is being accessed. Its .grad attribute won't be populated during autograd.backward(). If you indeed want the .grad field to be populated for a non-leaf Tensor, use .retain_grad() on the non-leaf Tensor. If you access the non-leaf Tensor by mistake, make sure you access the leaf Tensor instead. See github.com/pytorch/pytorch/pull/30531 for more informations. (Triggered internally at aten/src/ATen/core/TensorBody.h:486.)

Isso ocorre porque os graduados são propagados de volta para o tensor folha input, e não para interm. Você pode adicionar interm.retain_grad()se quiser obter a graduação da intermvariável.

No entanto, mesmo que você tenha feito isso, não há nada no seu exemplo que possa intermalterar o valor de. Cada etapa do otimizador altera o inputvalor, mas isso não resulta no intermrecalculado. Se quiser intermser atualizado, você precisa recalculá-lo a cada iteração com o novo inputvalor. ou seja:

for epoch in range(5):
    optimizer.zero_grad()
    interm = sigmoid(input)
    interm.retain_grad()
    loss = torch.linalg.vector_norm(interm - torch.tensor([2.,2.]))
    print(epoch, loss, input, interm)

    loss.backward(retain_graph=True)
    optimizer.step()
    print(interm.grad)

Há também um problema fundamental com o que você está tentando fazer. Você diz que quer que inputisso resulte em interm = [2., 2.]. No entanto, você está computando interm = sigmoid(input). A função sigmóide é limitada entre (0, 1). Não existe tal valor inputque resultaria em interm = [2., 2.], porque 2está fora do intervalo da função sigmóide. Se você executasse seu loop de otimização indefinidamente, obteria input = [inf, inf]e interm = [1., 1.].

Por que minha camada sigmóide está bloqueando gradientes?

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Por que minha camada sigmóide está bloqueando gradientes?

1 respostas

relate perguntas