关于【pytorch】的问题- 第1页

Mickey Han

Asked: 2025-01-22 22:35:06 +0800 CST

HuggingFace 模型 - OnnxRuntime - Jupyter Notebook 打印模型摘要

5

非常感谢您阅读我的问题，如果这是一个显而易见的问题，请原谅。

我使用 anaconda navigator：通过管道安装来自 OpenAi 的模型 whisper，这是一个音频到文本转换模型，我使用 jupyter notebook，当我刚运行模型的单元时，会出现这个模块摘要，这对于了解模型是什么非常有用：

但是，使用另一个 pip 安装的模型： https://huggingface.co/breezedeus/pix2text-mfr 我注意到区别在于它是最佳的。onnxruntime

当我做与上面相同的事情时，它会返回一个内存位置？或者是？

抱歉，如果这是一个简单的问题，我尝试谷歌搜索了一下，但不知道要搜索什么关键词 - “onnx pytorch 模型摘要”？有没有办法得到如上所述的模型摘要？

非常感谢您阅读我的问题。

Denis Shafarenko

Asked: 2025-01-19 05:42:09 +0800 CST

torch.as_tensor() 和 torch.asarray() 之间的区别

6

我从文档中了解到，torch.as_tensor()和都torch.asarray()返回与输入共享内存的张量data，否则返回副本。我只注意到参数中的两个区别：

我可以隐式地传递copy=False给torch.asarray()需要共享内存，如果无法复制则获取异常，或者我可以传递copy=True给需要复制。

我可以requires_grad在中指定torch.asarray()。

那么，是否torch.asarray()只提供比更多的功能torch.as_tensor()？

但是如果我只是想尽可能地获取共享内存，我应该使用什么：torch.asarray()或者torch.as_tensor()？性能上有什么区别吗？

greenbow

Asked: 2025-01-06 19:59:39 +0800 CST

Unet pytorch尺寸不匹配

6

我得到了以下 U-net 架构导致的问题：

class UNet(nn.Module): 
    def __init__(self, in_channels, out_channels):
        super(UNet, self).__init__()
        self.encoder1 = self.double_conv(in_channels, 64)
        self.encoder2 = self.down(64, 128)
        self.encoder3 = self.down(128, 256)
        self.encoder4 = self.down(256, 512)
        self.bottleneck = self.double_conv(512, 1024)
        self.decoder4 = self.up(1024, 512)
        self.decoder3 = self.up(512, 256)
        self.decoder2 = self.up(256, 128)
        self.decoder1 = self.up(128, 64)
        self.final_conv = nn.Conv2d(64, out_channels, kernel_size=1) # SAME convolution/padding

    def double_conv(self, in_channels, out_channels): # Convo Block
        return nn.Sequential(
            nn.Conv2d(in_channels, out_channels, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(out_channels, out_channels, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
        )

    def down(self, in_channels, out_channels):
        return nn.Sequential(
            nn.MaxPool2d(kernel_size=2, stride=2),
            self.double_conv(in_channels, out_channels),
        )

    def up(self, in_channels, out_channels):
        return nn.Sequential(
            nn.ConvTranspose2d(in_channels, out_channels, kernel_size=2, stride=2),
            self.double_conv(in_channels, out_channels),
        )

    def forward(self, x):
        # Encoder
        enc1 = self.encoder1(x)  # Output: [1, 64, 256, 256]
        print("enc1.shape",enc1.shape)
        enc2 = self.encoder2(enc1)  # Output: [1, 128, 128, 128]
        print("enc2.shape",enc2.shape)
        enc3 = self.encoder3(enc2)  # Output: [1, 256, 64, 64]
        print("enc3.shape",enc3.shape)
        enc4 = self.encoder4(enc3)  # Output: [1, 512, 32, 32]
        print("enc4.shape",enc4.shape)
        bottleneck_output = self.bottleneck(enc4)  # Output: [1, 1024, 32, 32]
        print("bottleneck_output",bottleneck_output.shape)
        
        # Decoder
        dec4 = self.decoder4(bottleneck_output)#bottleneck_output)  # Output: [1, 512, 64, 64]
        print(dec4.shape)
        dec4 = torch.cat((dec4, enc4), dim=1)  # skip connect, Concatenate: [1, 1024, 64, 64]
        dec4 = self.double_conv(1024, 512)(dec4)  # Corrected input channels to 1024

        dec3 = self.decoder3(dec4)  # Output: [1, 256, 128, 128]
        dec3 = torch.cat((dec3, enc3), dim=1)  # Concatenate: [1, 512, 128, 128]
        dec3 = self.double_conv(512, 256)(dec3)  # Corrected input channels to 512

        dec2 = self.decoder2(dec3)  # Output: [1, 128, 256, 256]
        dec2 = torch.cat((dec2, enc2), dim=1)  # Concatenate: [1, 256, 256, 256]
        dec2 = self.double_conv(256, 128)(dec2)  # Corrected input channels to 256

        dec1 = self.decoder1(dec2)  # Output: [1, 64, 512, 512]
        dec1 = torch.cat((dec1, enc1), dim=1)  # Concatenate: [1, 128, 512, 512]
        dec1 = self.double_conv(128, 64)(dec1)  # Corrected input channels to 128

        return self.final_conv(dec1)  # Output: [1, 1, 512, 512]```

在通过 main 方法执行时

unet = UNet(in_channels=1, out_channels=1)
sample_input = torch.randn(1, 1, 256, 256)
output = unet(sample_input)

我得到：

enc1.shape torch.Size([1, 64, 256, 256])
enc2.shape torch.Size([1, 128, 128, 128])
enc3.shape torch.Size([1, 256, 64, 64])
enc4.shape torch.Size([1, 512, 32, 32])
bottleneck_output torch.Size([1, 1024, 32, 32])

并出现以下错误：

---> 55 dec4 = self.decoder4(bottleneck_output)

RuntimeError: Given groups=1, weight of size [512, 1024, 3, 3], expected input[1, 512, 64, 64] to have 1024 channels, but got 512 channels instead

因此问题显然是bottleneck_output具有 1024 个通道的形状，但decoder4似乎无法识别它或诸如此类的东西。

我尝试过匹配尺寸和其他东西，比如对齐函数，但到目前为止没有任何效果。打印输出形状也没什么用。谢谢任何提示。

Flooo

Asked: 2024-12-01 14:00:25 +0800 CST

使用 torch 收集图像堆栈中每幅图像的不同像素

5

我有一批图像和一批针对每幅图像的索引 (x, y)。每幅图像的索引都不同，因此我无法使用简单的索引。获取另一批具有每幅图像所选像素颜色的批次的最佳或最快方法是什么？

    n_images = 4
    width = 100
    height = 100
    channels = 3
    n_samples = 30
    
    images = torch.rand((n_images, height, width, channels))
    indices = (torch.rand((n_images, n_samples, 2)) * width).to(torch.int32)

    # preferred function
    # result = images[indices]
    # with result.shape = (n_images, n_samples, 3)

    # I just found this solution but I would rather like to call a general torch function
    xs = indices.reshape((-1, 2))[:, 0]
    ys = indices.reshape((-1, 2))[:, 1]
    ix = torch.arange(n_images, dtype=torch.int32)
    ix = ix[..., None].expand((-1, n_samples)).flatten()
    
    result = images[ix, ys, xs].reshape((n_images, n_samples, 3))

Dinasour

Asked: 2024-11-19 13:37:36 +0800 CST

二维和三维张量之间的 torch matmul

5

你好，我有两个张量：

a = torch.randn(125, 128)    # Shape: (125, 128)
b = torch.randn(128, 8, 64)  # Shape: (128, 8, 64)

我希望结果的形状为（125，8，64）

我的第一个观察是：a 的最后一个维度与 b 的第一个维度匹配，然后我这样做：

result = torch.matmul(a,b)

它给了我错误：

batch2 张量的前两个维度的预期大小为：[128, 128]，但得到的结果是：[128, 8]。

我怎样才能做到这一点。

编辑：我也不想重塑为 2D，然后再将结果重塑为 3D。

Julier

Asked: 2024-09-14 00:22:59 +0800 CST

是否可以在神经网络的最后一层为不同的输出设置不同的激活函数？

7

我有一个简单的神经网络 - 一些线性层，层与层之间以及网络末端之后有 tanh。例如，我有一个形状为 (100, 2) 的输入张量，我希望输出的大小为 (100, 5)。但第一列中的值在 [0, 1] 范围内，也就是说，在末端使用 S 形激活函数是合适的。其他列中的值在 [-1, 1] 范围内，也就是说可以使用“tanh”激活函数。但我不明白如何为第一个输出列设置 S 形，为其他输出设置“tanh”？可能吗？或者，我应该对输出中的第一列应用 abs()，并在最后一个线性层之后设置“tanh”？

现在我有以下模型：


nn.Sequential(nn.Linear(input_size, hidden_size),
nn.Tanh(),
nn.Linear(hidden_size, output_size),
nn.Tanh())

y = model(x)
y[:,0] = torch.abs(y[:,0])

但我想要：

model = nn.Sequential(nn.Linear(input_size, hidden_size),
nn.Tanh(),
nn.Linear(hidden_size, output_size))

并对第一个输出应用 nn.Sigmoid()，对其他输出应用 nn.Tanh()：

y = model(x)
act_1 = nn.Sequential(nn.Sigmoid())
act_2 = nn.Sequential(nn.Tanh())

y[:,0] = act_1(y[:,0])
y[:,1:] = act_2(y[:,1:])

Sergio Solorzano

Asked: 2024-09-02 01:32:59 +0800 CST

无法重现 torcheval.metrics.r2_score 中的平方和计算

5

我手动计算 R^2，并将结果与没有多输出的 torcheval.metrics.regression.r2_score 进行比较，但我没有绑定总和平方计算，因此手动 R^2 与 torcheval 不同：

手动方法：

#Manual approach code
ss_total = torch.sum((var1 - torch.mean(var1)) ** 2)
ss_residual = torch.sum((var1 - var2) ** 2)
r2 = 1 - (ss_residual / ss_total)
print("R^2 manual",r2, "my ss_total", ss_total, "ss_residual", ss_residual)
#R^2 manual tensor(-1.4128, device='cuda:0') my ss_total tensor(3.7081, device='cuda:0') ss_residual tensor(8.9471, device='cuda:0')

Torcheval.metrics 方法tss 公式文档无需多输出：

sum_squared_obs = torch.sum((actual - torch.mean(actual)) ** 2)
tss sum squared calculation = sum_squared_obs - torch.square(sum_obs) / num_obs
r_squared = 1 - (rss / tss)

#torcheval.metrics.regression.r2_score tested in script
metric = R2Score(device=device)
update = metric.update(var1, var2)
print("sum_squared_residual",update.sum_squared_residual)
print("sum_obs",update.sum_obs)
print("torch.square(sum_obs)",torch.square(update.sum_obs))
print("num_obs",len(var1))
print("sum_squared_obs",update.sum_squared_obs)
r2_py = metric.compute()
print("R^2 pytorch",r2_py)
#sum_squared_residual tensor(8.9471, device='cuda:0')
#sum_obs tensor(-29.9617, device='cuda:0')
#torch.square(sum_obs) tensor(897.7044, device='cuda:0')
#num_obs 64
#sum_squared_obs tensor(22.2245, device='cuda:0')
#R^2 pytorch tensor(-0.0914, device='cuda:0')
#R^2 var_weight pytorch tensor(-0.0914, device='cuda:0')

我无法解开 tss。

有人能解释一下这两种方法有什么区别吗？

我已经在 Excel 中保存了实际值和预测值，并使用这两种方法计算 R^2。

JTT

Asked: 2024-05-08 00:52:29 +0800 CST

使用虚拟变量最小化 PyTorch 中的函数

5

我是 PyTorch 的新手，所以我的问题可能很微不足道。

我正在尝试最小化一个可以在片段中恢复的函数


def target_function(params):
    vector = torch.zeros(10)
    μr = torch.zeros(2, requires_grad=True)
   
    θ = torch.zeros(2, requires_grad=True)

    μr = torch.tensor([params[0], params[4]], requires_grad=True)

    θ = torch.tensor([params[3], params[7]], requires_grad=True)
 
    for i in range(2):
        vector[i] += (μr[i]**2 - θ[i] ).sum()

    return torch.norm(vector)

我尝试通过执行优化

import matplotlib.pyplot as plt


# Initialize parameters with random values between 0 and 1
params = torch.rand(10, requires_grad=True)


# Choose an optimizer (e.g., SGD) and specify the learning rate
optimizer = SGD([params], lr=0.01)

num_steps = 100

# Lists to store the values of the target function during optimization
target_values = []

# Optimization loop
for i in range(num_steps):
    # Zero gradients
    optimizer.zero_grad()
    
    # Compute the function value
    output = target_function(params)
    
    # Store the function value
    target_values.append(output.item())
    
    # Compute gradients
    output.backward()
    
    # Update parameters
    optimizer.step()

# Plot the values of the target function during optimization
plt.plot(target_values)
plt.xlabel('Iteration')
plt.ylabel('Target Function Value')
plt.title('Optimization Progress')
plt.show()

但函数的值似乎在循环期间不会变化。调试我发现它可能取决于使用变量μr 和θ代码中。也许我正在做一些不应该做的事情，但我不明白如何解决这个问题，保持变量μr 和θ。

感谢您的任何帮助或解释

Penguin

Asked: 2024-04-07 04:38:59 +0800 CST

如何在不丢失梯度的情况下屏蔽张量？

5

我有一个张量

import torch
a = torch.randn(1, 3, requires_grad=True)
print('a: ', a)
>>> a:  tensor([[0.0200, 1.00200, -4.2000]], requires_grad=True)

还有一个面具

mask = torch.zeros_like(a)
mask[0][0] = 1

我想屏蔽我的张量a而不将梯度传播到我的掩模张量（在我的实际情况中它有一个梯度）。我尝试了以下操作

with torch.no_grad():
    b = a * mask
    print('b: ', b)
    >>> b:  tensor([[0.0200, 0.0000, -0.0000]])

但它完全从我的张量中删除了梯度。正确的做法是什么？

wkacct acctwk

Asked: 2024-02-22 23:41:48 +0800 CST

如果 nn.module 继承对象的实例被 2 个不同的顺序层调用，它们之间是否共享权重？

5

如果标题中的术语奇怪或不正确，我深表歉意，我尝试参考以下场景：

作为一个最小的例子，我定义一个网络如下：

class Convolution_Layers(nn.Module):
  def __init__(self, in, out, kernel):
    super(Convolution_Layers, self).__init__()
  
    self.conv2d = nn.Conv2d(in_channels=in, out_channels=out, kernel_size=kernel)

    self.conv2d_layers = nn.Sequential(
      self.conv2d,
      nn.ReLU,
    )

  forward(self,x):
    return self.conv2d_layers(x)
    

class Network_Model(nn.Module):
  def __init__(self):
    super(Network_Model, self).__init__()
    self.basic_conv = Convolution_layers(1,1,3)

    self.subnetwk_1 = nn.ModuleList().append([self.basic_conv])
    self.subnetwk_2 = nn.ModuleList().append([self.basic_conv])

  def forward(self,x1,x2):
    out1, out2 = x1, x2
    for l in self.subnetwk_1:
      out1 = l(x1)
    for l in self.subnetwk_2:
      out2 = l(x2)
    return out1,out2

我想知道这是否会导致子网 1 和 2 中的权重被共享，因为它们来自同一卷积层实例。

理想情况下，我希望权重是分开的，但只能创建一次基本卷积块，然后在其他地方重复使用它。可能有更好的方法来实现这一点。

HuggingFace 模型 - OnnxRuntime - Jupyter Notebook 打印模型摘要

torch.as_tensor() 和 torch.asarray() 之间的区别

Unet pytorch尺寸不匹配

使用 torch 收集图像堆栈中每幅图像的不同像素

二维和三维张量之间的 torch matmul

是否可以在神经网络的最后一层为不同的输出设置不同的激活函数？

无法重现 torcheval.metrics.r2_score 中的平方和计算

使用虚拟变量最小化 PyTorch 中的函数

如何在不丢失梯度的情况下屏蔽张量？

如果 nn.module 继承对象的实例被 2 个不同的顺序层调用，它们之间是否共享权重？

重新格式化数字，在固定位置插入分隔符

为什么 C++20 概念会导致循环约束错误，而老式的 SFINAE 不会？

VScode 自动卸载扩展的问题（Material 主题）

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

问题[pytorch](coding)