pytorch NN 在批量和单独前向传递中的输出差异

Question

Asked: 2024-04-24 16:47:09 +0800 CST2024-04-24 16:47:09 +0800 CST 2024-04-24 16:47:09 +0800 CST

如何在 Pytorch 中仅使用 conv1d 层从 2D 张量获取 3D 张量？

我是机器学习领域的新手。我正在尝试实现文章“使用智能手表和深度学习进行游泳风格识别和圈数计数”（ https://doi.org/10.1145/3341163.3347719 ）中的模型。模型的输入由 11 个通道的窗口数据组成，大小为 180。但是在第一个卷积层和最大池化之后，它们的张量由 11 层组成，窗口大小等于 59，但还有另一个维度，有 64 个特征图。但作者仅使用了内核大小为 3x1 的 conv1d。

我无法使用 nn.Conv1d 实现这样的内核。我怎样才能做到这一点？

Ivan · Answer 1 · 2024-04-24T17:04:27+08:00

具有内核大小的卷积3x1不是 1D 卷积，而是 2D 卷积：

conv = nn.Conv2d(1,64,(3,1))
maxpool = nn.MaxPool2d((3,1))

看一下单通道180x11输入的推论：

>>> maxpool(conv(torch.rand(1,1,180,11))).shape
torch.Size([1, 64, 59, 11])

这与上图中所示的“Conv.layer 1”输出的形状相匹配。