AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / coding / Perguntas / 77423441
Accepted
msedi
msedi
Asked: 2023-11-05 02:59:52 +0800 CST2023-11-05 02:59:52 +0800 CST 2023-11-05 02:59:52 +0800 CST

Como os streams e a contagem do asyncEngine funcionam juntos no CUDA

  • 772

CUDA define alguns parâmetros e não tenho certeza de como o CUDA se comporta, se tenho que respeitá-los ou se não os respeito ele funciona, mas talvez não com o melhor desempenho.

Ao olhar, cudaGetDevicePropertiesposso ver alguns parâmetros (retirados do site da NVidia: https://docs.nvidia.com/cuda/cuda-runtime-api/group__CUDART__DEVICE.html#group__CUDART__DEVICE_1g1bf9d625a931d657e08db2b4391170f0 :

concurrentKernels: O dispositivo pode executar vários kernels simultaneamente

Isso é apenas uma bandeira ou há algum impacto? Acho que kernels simultâneos só fazem sentido se streams forem usados, certo? (veja também asyncEngineCount).

asyncEngineCount: Número de motores assíncronos

Este é o número de kernels que podem ser executados em paralelo, conforme indicado acima. Também aqui acho que isso só funciona quando são usados ​​streams, certo?

Isso me leva a uma questão mais geral sobre streams . Quantos fluxos podem ser usados ​​ou alocados? Por exemplo, se asyncEngineCountfor 3, faz sentido ter mais de 3 fluxos? Se isso não for verdade, faz sentido alocar mais fluxos do que o arquivo asyncEngineCount.

O que aconteceria se eu alocasse mais streams do que asyncEngineCount e permitisse que vários kernels fossem executados simultaneamente? Vamos supor que eu aloque 10 streams e execute 10 kernels simultaneamente, mas o asyncEngineCount tem apenas 3. O CUDA executaria apenas 3 kernels por vez e os outros seriam bloqueados até que um stream estivesse livre?

Eu sempre interpretei um fluxo como um objeto de sincronização simples que não é sinalizado quando um método assíncrono CUDA é invocado, para que outros métodos esperem até que o método saia e o fluxo seja definido como sinalizado, mas isso parece uma explicação simplificada da minha parte, talvez ?

Não consegui encontrar uma boa explicação sobre execução e fluxos assíncronos, talvez com uma visão mais profunda. Os documentos CUDA não parecem explicar detalhes. Talvez haja uma boa explicação na web ou em um livro?

cuda
  • 1 1 respostas
  • 22 Views

1 respostas

  • Voted
  1. Best Answer
    Robert Crovella
    2023-11-05T06:05:23+08:002023-11-05T06:05:23+08:00

    Isso é apenas uma bandeira ou há algum impacto?

    É uma bandeira, um indicador de capacidade. Acho que basicamente todas as GPUs CUDA são capazes de executar kernels simultâneos. Eu ficaria muito surpreso se alguém encontrasse uma GPU CUDA que não tivesse essa capacidade.

    Acho que kernels simultâneos só fazem sentido se streams forem usados, certo?

    Sim, para organizar qualquer tipo de simultaneidade em CUDA (duas ou mais coisas acontecendo ao mesmo tempo) geralmente é necessário fazer uso adequado de streams. Existem algumas pequenas exceções a isso, como a simultaneidade da execução do código do host e da execução do código do dispositivo.

    Este é o número de kernels que podem ser executados em paralelo, conforme indicado acima.

    Não não é. Um mecanismo assíncrono em CUDA pode ser considerado um mecanismo DMA e é necessário/usado sempre que você emite uma solicitação de transferência de dados assíncrona (por exemplo, ) cudaMemcpyAsyncque tem a capacidade real de ser executada de forma assíncrona. Para que a transferência aconteça de forma assíncrona, é utilizado um mecanismo de hardware, e esse mecanismo é chamado de mecanismo assíncrono. Os mecanismos assíncronos não têm uso ou influência em relação à atividade do kernel, exceto que o uso de um mecanismo assíncrono permitiria, por exemplo, que uma atividade de transferência de dados acontecesse ao mesmo tempo que um kernel está em execução, sujeito a vários requisitos e capacidade do dispositivo.

    Isso me leva a uma questão mais geral sobre streams. Quantos fluxos podem ser usados ​​ou alocados? Por exemplo, se asyncEngineCount for 3, faz sentido ter mais de 3 fluxos?

    Não há um limite máximo especificado para o número de fluxos que podem ser criados. Já vi códigos projetados corretamente que usam mais de 40 fluxos. Streams não têm conexão direta com o asyncEngineCount. Se você criar e usar mais fluxos do que a quantidade de conexões de dispositivos , os fluxos serão distribuídos ("alias") pelas conexões de dispositivos, mas as conexões de dispositivos também não têm nada explícito a ver com mecanismos assíncronos.

    O que aconteceria se eu alocasse mais streams do que asyncEngineCount e permitisse que vários kernels fossem executados simultaneamente? Vamos supor que eu aloque 10 streams e execute 10 kernels simultaneamente, mas o asyncEngineCount tem apenas 3. O CUDA executaria apenas 3 kernels por vez e os outros seriam bloqueados até que um stream estivesse livre?

    Nada incomum aconteceria. Não há conexão entre asyncEngineCountfluxos e nem o número de kernels que você pode executar simultaneamente. A execução simultânea do kernel depende de fatores e recursos que não têm conexão com o asyncEngineCount, e você certamente pode demonstrar mais do que asyncEngineCountkernels rodando simultaneamente, e da última vez que verifiquei, o código de exemplo concurrentKernels faz isso. Há um limite superior/hardware (consulte a tabela 18) para o número de kernels simultâneos, mas não tem relação com mecanismos assíncronos.

    Não consegui encontrar uma boa explicação sobre execução assíncrona e fluxos,

    Para aprendizado geral de CUDA, geralmente recomendo esta série de treinamento on-line e a seção sobre "Simultaneidade CUDA" contém informações relevantes para este tópico. O guia de programação também possui uma seção estendida sobre Execução Simultânea Assíncrona em CUDA.

    • 3

relate perguntas

  • Por que eles estão preenchendo apenas uma memória compartilhada?

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    destaque o código em HTML usando <font color="#xxx">

    • 2 respostas
  • Marko Smith

    Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}?

    • 1 respostas
  • Marko Smith

    Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)?

    • 2 respostas
  • Marko Smith

    Por que as compreensões de lista criam uma função internamente?

    • 1 respostas
  • Marko Smith

    Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

    • 1 respostas
  • Marko Smith

    java.lang.NoSuchMethodError: 'void org.openqa.selenium.remote.http.ClientConfig.<init>(java.net.URI, java.time.Duration, java.time.Duratio

    • 3 respostas
  • Marko Smith

    Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)?

    • 4 respostas
  • Marko Smith

    Por que o construtor de uma variável global não é chamado em uma biblioteca?

    • 1 respostas
  • Marko Smith

    Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto?

    • 1 respostas
  • Marko Smith

    Somente operações bit a bit para std::byte em C++ 17?

    • 1 respostas
  • Martin Hope
    fbrereto Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}? 2023-12-21 00:31:04 +0800 CST
  • Martin Hope
    比尔盖子 Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)? 2023-12-17 10:02:06 +0800 CST
  • Martin Hope
    Amir reza Riahi Por que as compreensões de lista criam uma função internamente? 2023-11-16 20:53:19 +0800 CST
  • Martin Hope
    Michael A formato fmt %H:%M:%S sem decimais 2023-11-11 01:13:05 +0800 CST
  • Martin Hope
    God I Hate Python std::views::filter do C++20 não filtrando a visualização corretamente 2023-08-27 18:40:35 +0800 CST
  • Martin Hope
    LiDa Cute Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)? 2023-08-24 20:46:59 +0800 CST
  • Martin Hope
    jabaa Por que o construtor de uma variável global não é chamado em uma biblioteca? 2023-08-18 07:15:20 +0800 CST
  • Martin Hope
    Panagiotis Syskakis Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto? 2023-08-17 21:24:06 +0800 CST
  • Martin Hope
    Alex Guteniev Por que os compiladores perdem a vetorização aqui? 2023-08-17 18:58:07 +0800 CST
  • Martin Hope
    wimalopaan Somente operações bit a bit para std::byte em C++ 17? 2023-08-17 17:13:58 +0800 CST

Hot tag

python javascript c++ c# java typescript sql reactjs html

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve