流和 asyncEngine 计数如何在 CUDA 中协同工作

Question

dongrixinyu

Asked: 2024-05-27 11:52:51 +0800 CST2024-05-27 11:52:51 +0800 CST 2024-05-27 11:52:51 +0800 CST

将“cudaMalloc”和“cudaMemcpy”分开在不同的函数中？

772

我正在使用 cuda 来加速我的代码，其中我循环处理每个图像。每个图像都通过 cuda 在 GPU 上进行处理。

我参考cuda-samples编写了以下代码：

文件名：my_cuda.cu

#include "cuda_runtime.h"


int process_one_image(args)
{
    // note that declaration of some params is omitted.
    unsigned char *h_data = (unsigned char *)malloc(size);
    unsigned char *h_rgb = (unsigned char *)malloc(size_result);
    // initialize the host memory as an image info.
    ...

    unsigned char *d_data;
    unsigned char *d_rgb;

    cudaMalloc((void **)&d_data, size);
    cudaMalloc((void **)&d_rgb, size_result);
    cudaMemcpy(d_data, h_data, size, cudaMemcpyHostToDevice);

    // process the d_data on GPU
    ...

    // copy the result from device to host.
    cudaMemcpy(h_rgb, d_rgb, size_result, cudaMemcpyDeviceToHost);


    free(h_rgb);
    free(h_data)
    cudaFree(d_rgb);
    cudaFree(d_data);
}

在上面的代码中，cudaMalloc和cudaMemcpy位于同一个函数中process_one_image。并且代码运行正确。

但我想重复运行这段代码，例如循环运行超过 10000 次。所以我不想每次处理图像时都cudaMalloc这样做。cudaFree

所以我想将我的代码更改为以下安排。

cuda_文件：my_cuda.cu

#include "cuda_runtime.h"

int initCuda(unsigned char *h_data, unsigned char *h_rgb, unsigned char *d_data, unsigned char *d_rgb)
{
    // note that declaration of some params is omitted.
    unsigned char *h_data = (unsigned char *)malloc(size);
    unsigned char *h_rgb = (unsigned char *)malloc(size_result);
    cudaMalloc((void **)&d_data, size);
    cudaMalloc((void **)&d_rgb, size);
}

int FinalizeCuda(unsigned char *h_data, unsigned char *h_rgb, unsigned char *d_data, unsigned char *d_rgb)
{
    cudaFree(d_data);
    cudaFree(d_rgb);
    free(h_data);
    free(h_rgb);
}

int process_one_image(unsigned char *h_data, unsigned char *h_rgb, unsigned char *d_data, unsigned char *d_rgb) // note some args are omitted such as size etc.
{

    cudaMemcpy(d_data, h_data, size, cudaMemcpyHostToDevice);

    // process the d_data on GPU
    ...

    // copy the result from device to host.
    cudaMemcpy(h_rgb, d_rgb, size, cudaMemcpyDeviceToHost);
}

我的c代码：c_code.c

#include "my_cuda.cu"


int processing_loop(args)  // specific args are omitted
{
    // declaration of host and device memory
    unsigned char *h_data;
    unsigned char *h_rgb;
    unsigned char *d_data;
    unsigned char *d_rgb;

    initCuda(h_data, h_rgb, d_data, d_rgb);
    while (1)
    {
        int ret = process_one_image(h_data, h_rgb, d_data, d_rgb);
    }
    FinalizeCuda(h_data, h_rgb, d_data, d_rgb);

}

在这里，您可以注意到我只想cudaMalloc在 C 文件中运行一次，以加速此代码，但我发现它无法正常工作。它没有报告任何错误，但我没有从h_rgb.

看来（我猜）在处理时 cudaMemcpy，它无法找到正确的地址d_data并复制到d_data。

那么我该如何修复这个错误，或者cudaMalloc，这是只执行一次的正确方法吗？

整个代码位于ffio key_file_path中：

ffio/ffio/ffio_c/ffio.c- 对应于c_code.c示例文件。
ffio/ffio/ffio_c/yuv2rgb.cu- 对应于my_cuda.cu示例。

如何运行整个示例：

./compiler.sh构建可执行文件main
执行main位于ffio/ffio/ffio_c/test
ffio->cudaFrame使用 Ctrl+F检查变量

1 个回答

Voted

Homer512 · Answer 1 · 2024-05-27T14:40:35+08:00

Best Answer

Homer512

2024-05-27T14:40:35+08:002024-05-27T14:40:35+08:00

基本 C/C++：您希望initCuda函数在函数中设置指针processing_loop。所以你必须将一个指针传递给函数的指针initCuda。这是一个最小的修复。

void initCuda(unsigned char **h_data, unsigned char **h_rgb,
             unsigned char **d_data, unsigned char **d_rgb)
{
    *h_data = (unsigned char *)malloc(size);
    *h_rgb = (unsigned char *)malloc(size_result);
    cudaMalloc((void **)d_data, size);
    cudaMalloc((void **)d_rgb, size);
}
int processing_loop(args)  // specific args are omitted
{
    // declaration of host and device memory
    unsigned char *h_data;
    unsigned char *h_rgb;
    unsigned char *d_data;
    unsigned char *d_rgb;

    initCuda(&h_data, &h_rgb, &d_data, &d_rgb);
    while (1)
    {
        int ret = process_one_image(h_data, h_rgb, d_data, d_rgb);
    }
    FinalizeCuda(h_data, h_rgb, d_data, d_rgb);
}

请注意，您的代码还存在其他问题，例如缺少错误检查。

1

将“cudaMalloc”和“cudaMemcpy”分开在不同的函数中？

如何运行整个示例：

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

将“cudaMalloc”和“cudaMemcpy”分开在不同的函数中？

如何运行整个示例：

1 个回答

相关问题