haruwa提出的问题 -coding

haruwa

Asked: 2024-02-12 00:39:19 +0800 CST

在 nn.MultiheadAttention 中进行反向传播（训练）时计算的梯度是多少？

这是我对内部培训流程如何运作的理解nn.MultiheadAttention。让我们忽略位置编码，只关注Q大小写。

batch = 1,num_heads = 2, seq_len = 5, problem_dim = 4.

word_embedding = [5,4] q_weight = [4x4] Q = word_embedding*q_weight

认为，

 class MultiHeadAttentionModel(nn.Module):
        def __init__(self, problem_dim, num_heads):
            super().__init__()
            self.multihead_attn = nn.MultiheadAttention(embed_dim=problem_dim,num_heads=num_heads,batch_first=True)
        
        def forward(self, query, key, value):
            attn_output, attn_output_weights = self.multihead_attn(query, key, value)
            return attn_output, attn_output_weights

model = MultiHeadAttentionModel(problem_dim=problem_dim, num_heads=num_heads)
model.eval()          <---------------- forward pass
attn_output, attn_output_weights = model(Q, K, V)
attn_output.backward() <--------------- training (backward pass)

final_linear_weight = model.multihead_attn.out_proj.weight

现在有最终的线性变换忽略缩放output = (softmax(Q.dot(K_trans).dot(V))*final_linear_weight

我的问题是，final_linear_weight训练阶段学习的唯一权重是吗？

在 nn.MultiheadAttention 中进行反向传播（训练）时计算的梯度是多少？

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

haruwa's questions