AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / coding / Perguntas / 76934852
Accepted
user366312
user366312
Asked: 2023-08-19 19:26:31 +0800 CST2023-08-19 19:26:31 +0800 CST 2023-08-19 19:26:31 +0800 CST

Por que eles estão preenchendo apenas uma memória compartilhada?

  • 772
  • Um tratamento otimizado de acessos strided usando leituras aglutinadas da memória global

O link acima diz que:

__global__ void coalescedMultiply(float *a, float *c, int M)
{
  __shared__ float aTile[TILE_DIM][TILE_DIM],
                   transposedTile[TILE_DIM][TILE_DIM];
  int row = blockIdx.y * blockDim.y + threadIdx.y;
  int col = blockIdx.x * blockDim.x + threadIdx.x;
  float sum = 0.0f;
  aTile[threadIdx.y][threadIdx.x] = > a[row*TILE_DIM+threadIdx.x];
  transposedTile[threadIdx.x][threadIdx.y] =
      a[(blockIdx.x*blockDim.x + threadIdx.y)*TILE_DIM +
      threadIdx.x];  
  __syncthreads();
  for (int i = 0; i < TILE_DIM; i++) {
      sum += aTile[threadIdx.y][i]* transposedTile[i][threadIdx.x];
  }
  c[row*M+col] = sum;
}

(...)
Esses conflitos multibanco são muito caros. A solução simples é preencher a matriz de memória compartilhada para que ela tenha uma coluna extra, como na linha de código a seguir.

__shared__ float transposedTile[TILE_DIM][TILE_DIM+1];

Minha pergunta é,

Por que eles estão preenchendo apenas a memória compartilhada do lado direito ( transposedTile), não ambos ( transposedTilee aTile)?

cuda
  • 1 1 respostas
  • 28 Views

1 respostas

  • Voted
  1. Best Answer
    Robert Crovella
    2023-08-19T22:36:47+08:002023-08-19T22:36:47+08:00

    Pois somente o acesso a esse tile apresentará conflitos de banco, baseado nos padrões de acesso do código. Portanto, apenas esse ladrilho precisa ser preenchido para evitar conflitos de banco.

    Resumidamente, conflitos de banco em acesso compartilhado ocorrem quando 2 ou mais threads no warp estão tentando acessar valores no mesmo banco, na mesma transação (basicamente como dizer na mesma instrução emitir). Para simplificar, quando temos uma matriz de threadblock de 32x32 e um arranjo de blocos de 32x32 com quantidades de 4 bytes, bancos e colunas são sinônimos. Portanto a declaração anterior pode ser modificada para dizer que se duas ou mais threads estiverem acessando a mesma coluna no tile, no mesmo ciclo, haverá conflitos de banco.

    A exceção a esta regra é a exceção de transmissão. Se duas ou mais threads estiverem acessando o mesmo banco (ou coluna neste caso) porque estão acessando o mesmo local, então esse local será transmitido para todos os threads necessários para aquele ciclo, e a regra de broadcast não implica em conflitos de banco.

    Portanto, isso significa que devemos examinar todos os padrões de acesso (carregar e armazenar) para cada bloco e ver quais deles no código original estariam em conflito com o banco. Nossa regra é que um conflito de banco ocorrerá se a coluna for a mesma entre as threads em um warp, mas a linha for diferente. Também devemos ser capazes de observar ou perceber rapidamente o "layout" geral de um threadblock de 32x32: existem 32 warps nesse threadblock. No primeiro warp, todos os threads terão threadIdx.yvalor igual a zero, threadIdx.xvariando de 0 a 31 ao longo do warp. A única diferença para o segundo warp é que seus threadIdx.yvalores serão todos 1. E 2 para o 3º warp, e assim por diante.

    Agora vamos olhar para cada acesso (um load e um store para cada tile) e ver quais terão um padrão de banco em conflito no código original:

    aTile[threadIdx.y][threadIdx.x] = ...
    

    Esta é a operação de armazenamento para aTile. threadIdx.yestá no índice de linha e threadIdx.xestá no índice de coluna. Sabemos que para um determinado warp em um threadblock de 32x32, threadIdx.yé constante ao longo do warp e threadIdx.xvaria ao longo do warp de forma linear: 0,1,2,3,...31. Portanto, esta transação de carregamento compartilhado terá threads solicitando dados na mesma linha de memória compartilhada e não haverá conflitos de banco. Cada thread está lendo de uma coluna separada, o que é como dizer um banco separado neste caso, e esse é o melhor padrão canonicamente para memória compartilhada: sem conflitos de banco.

    transposedTile[threadIdx.x][threadIdx.y] = ...
    

    Esta é a transação de armazenamento compartilhado para transposedTile. Vemos que em relação ao caso anterior, a indexação é invertida. threadIdx.y, que é constante em um warp, agora está no índice da coluna e threadIdx.xque varia ao longo do warp, está no índice da linha. Isso significa que estamos selecionando uma única coluna no warp, com diferentes threads acessando diferentes membros dessa coluna. Este é o acesso colunar (em vez do acesso por linha no caso anterior) e quando temos um arranjo de ladrilhos de forma que cada coluna corresponda a um banco de memória compartilhada, este será canonicamente o pior padrão de acesso possível à memória compartilhada. Todas as threads estão acessando o mesmo banco, e em todo o warp teremos um conflito de banco de 32 vias, o que significa que o acesso levará 32 vezes mais do que o melhor caso possível.

    ... * transposedTile[i][threadIdx.x];
    

    esta é a operação load-from-shared para transposedTile. ié constante ao longo do warp (em qualquer iteração do loop) e threadIdx.xvaria ao longo do warp. Portanto, estamos selecionando uma linha específica e solicitando os elementos ao longo dessa linha. Este é o melhor caso para acesso compartilhado.

    sum += aTile[threadIdx.y][i] ...
    

    Considerado em todo o warp, isso tem linhas e colunas fixas/constantes em qualquer iteração de loop. Este é o caso da transmissão . Em qualquer iteração de loop e ciclo de emissão de instrução, cada thread no warp está solicitando o mesmo local na memória compartilhada. Também é canonicamente bom.

    Portanto, apenas 1 dos 4 padrões de acesso possíveis tem o potencial de ser um conflito de banco. Este padrão de acesso pertence a transposedTilee, portanto, só transposedTileprecisa ser preenchido, para evitar conflitos de banco neste código.

    • 1

relate perguntas

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    destaque o código em HTML usando <font color="#xxx">

    • 2 respostas
  • Marko Smith

    Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}?

    • 1 respostas
  • Marko Smith

    Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)?

    • 2 respostas
  • Marko Smith

    Por que as compreensões de lista criam uma função internamente?

    • 1 respostas
  • Marko Smith

    Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

    • 1 respostas
  • Marko Smith

    java.lang.NoSuchMethodError: 'void org.openqa.selenium.remote.http.ClientConfig.<init>(java.net.URI, java.time.Duration, java.time.Duratio

    • 3 respostas
  • Marko Smith

    Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)?

    • 4 respostas
  • Marko Smith

    Por que o construtor de uma variável global não é chamado em uma biblioteca?

    • 1 respostas
  • Marko Smith

    Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto?

    • 1 respostas
  • Marko Smith

    Somente operações bit a bit para std::byte em C++ 17?

    • 1 respostas
  • Martin Hope
    fbrereto Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}? 2023-12-21 00:31:04 +0800 CST
  • Martin Hope
    比尔盖子 Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)? 2023-12-17 10:02:06 +0800 CST
  • Martin Hope
    Amir reza Riahi Por que as compreensões de lista criam uma função internamente? 2023-11-16 20:53:19 +0800 CST
  • Martin Hope
    Michael A formato fmt %H:%M:%S sem decimais 2023-11-11 01:13:05 +0800 CST
  • Martin Hope
    God I Hate Python std::views::filter do C++20 não filtrando a visualização corretamente 2023-08-27 18:40:35 +0800 CST
  • Martin Hope
    LiDa Cute Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)? 2023-08-24 20:46:59 +0800 CST
  • Martin Hope
    jabaa Por que o construtor de uma variável global não é chamado em uma biblioteca? 2023-08-18 07:15:20 +0800 CST
  • Martin Hope
    Panagiotis Syskakis Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto? 2023-08-17 21:24:06 +0800 CST
  • Martin Hope
    Alex Guteniev Por que os compiladores perdem a vetorização aqui? 2023-08-17 18:58:07 +0800 CST
  • Martin Hope
    wimalopaan Somente operações bit a bit para std::byte em C++ 17? 2023-08-17 17:13:58 +0800 CST

Hot tag

python javascript c++ c# java typescript sql reactjs html

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve