NickBraunagel提出的问题 -coding

NickBraunagel

Asked: 2023-12-02 07:19:53 +0800 CST

变形金刚：推理模式下的交叉注意力张量形状

一段时间以来一直试图解决这个问题。我发现了这个类似的问题，但我认为提议的答案实际上并没有解决这个问题。

在编码器/解码器 Transformer 的推理模式下，我的理解是我们不会预先填充解码器输入序列以匹配编码器序列长度（即传入[start_id,]而不传入[start_id, pad_id, pad_id, ...]）

我可能会遗漏一些东西，但是当我不预填充时，注意机制无法正确计算矩阵乘法，因为解码器输入的 seq_length = 1，而编码器 seq_length > 1 ( T)。作为参考（参见附图），我在每个步骤中识别了张量形状，您可以看到在给定不兼容的张量形状的情况下无法执行最后一个 matmul 步骤的位置。

我缺少什么？我应该预填充解码器输入吗？或者我是否截断编码器输出以匹配解码器长度？还有别的事吗？

变形金刚：推理模式下的交叉注意力张量形状

为什么要通过 where 子句中绑定的通用特征来约束单位类型（如 `where () : Trait<…>`）？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

如果 T 既不可构造、不可复制、也不可移动，那么我可以拥有 std::optional<T> 吗？

为什么我可以定义一个 constinit 的 std::string 实例？如果对象需要动态初始化，constinit 不是被禁止的吗？

如何分配以后放置的新“如同新”

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

NickBraunagel's questions