msedi提出的问题 -coding

msedi

Asked: 2023-11-05 02:59:52 +0800 CST

流和 asyncEngine 计数如何在 CUDA 中协同工作

CUDA 定义了一些参数，我不太确定 CUDA 的行为方式，如果我必须尊重它们，或者如果我不尊重它们，它确实会运行，但可能不会获得最佳性能。

查看时cudaGetDeviceProperties我可以看到一些参数（取自NVidia网站：https ://docs.nvidia.com/cuda/cuda-runtime-api/group__CUDART__DEVICE.html#group__CUDART__DEVICE_1g1bf9d625a931d657e08db2b4391170f0 ：

concurrentKernels：设备可能可以同时执行多个内核

这只是一个标志还是有任何影响？我认为并发内核只有在使用流时才有意义，对吧？（另请参阅 asyncEngineCount）。

asyncEngineCount：异步引擎数量

这是上面给出的可以并行运行的内核数量吗？另外，我认为这只在使用流时才有效，对吗？

这让我想到了一个关于流的更普遍的问题。总共可以使用或分配多少个流？例如，如果asyncEngineCount是 3，那么拥有 3 个以上的流是否有意义？如果我所说的不是真的，那么分配比asyncEngineCount.

如果我分配的流多于 asyncEngineCount 并让多个内核同时运行，会发生什么情况？假设我分配 10 个流并同时运行 10 个内核，但 asyncEngineCount 只有 3 个。CUDA 是否会一次只运行 3 个内核，而其他内核会被阻塞，直到有一个流空闲为止？

我总是将流解释为一个简单的同步对象，当调用 CUDA 异步方法时，该对象不会发出信号，以便其他方法等待该方法退出并且流设置为有信号，但这似乎是我这边的过于简单的解释？

我找不到关于异步执行和流的很好的解释，也许有更深入的见解。CUDA文档似乎没有解释细节。也许网络或书籍上有很好的解释？

流和 asyncEngine 计数如何在 CUDA 中协同工作

重新格式化数字，在固定位置插入分隔符

为什么 C++20 概念会导致循环约束错误，而老式的 SFINAE 不会？

VScode 自动卸载扩展的问题（Material 主题）

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

msedi's questions