AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / computer / Perguntas / 1727062
Accepted
Tamay
Tamay
Asked: 2022-06-18 13:38:51 +0800 CST2022-06-18 13:38:51 +0800 CST 2022-06-18 13:38:51 +0800 CST

Por que o desempenho melhora 32 vezes ao usar FP32 em vez de FP64 (não 2 vezes)?

  • 772

Considere a NVIDIA Quadro RTX 8000 (especificações abaixo). Usá-lo para executar um único (precisão de 32 bits) fornece um desempenho teórico de 16,31 TFLOPS. Se reduzirmos a precisão para meia precisão (16 bits), o desempenho teórico dobra para 32,62 TFLOPS. No entanto, se reduzirmos pela metade a precisão de 32 bits para 64 bits, o desempenho teórico cai 32 vezes para 509,8 GFLOPS. Por que a perda de desempenho do FP32 para o FP64 é muito maior do que o ganho de desempenho da mudança do FP32 para o FP16?

insira a descrição da imagem aqui

Reconheço que isso nem sempre é o caso para cada GPU, mas minha impressão é que, para muitas GPUs, os ganhos de FP64 -> FP32 são muito maiores do que os ganhos de FP32 -> FP16.

performance graphics-card
  • 1 1 respostas
  • 205 Views

1 respostas

  • Voted
  1. Best Answer
    Mokubai
    2022-06-18T14:29:53+08:002022-06-18T14:29:53+08:00

    Provavelmente porque o tamanho de registro padrão dentro das unidades é de 32 bits.

    Um registrador de 32 bits pode conter dois valores de 16 bits que podem ser multiplicados, resultando em uma duplicação do desempenho.

    Por outro lado, a multiplicação de valores de 64 bits exigiria 4 registros (dois valores de 64 bits divididos em partes de 32 bits cada) ou carregamento/armazenamento de memória entre os 32 bits mais baixos e os 32 bits mais altos dos 64 bits. valor de -bit. Haveria carga/armazenamentos e bytes adicionais necessários para lidar com estouro que pode usar mais registradores. Fazer matemática de ponto flutuante de 64 bits em registradores de 32 bits é viável, mas está longe de ser uma simples redução pela metade devido à largura dupla. Há muita matemática adicional envolvida porque você não pode fazer um simples "adicionar esses dois registradores", mas em vez disso tem que fazer a matemática do caminho mais longo.

    From Stack Overflow Multiplicando um número de 64 bits por um número de 32 bits em 8086 asm

    Para o código final (com mesclagem); você terminaria com 8 instruções MUL, 3 instruções ADD e cerca de 7 instruções ADC.

    O ponto principal dos processadores vetoriais é que eles trabalham em fluxos de instruções e dados e até mesmo em uma GPU com largura de banda maciça o acesso à memória é caro, especialmente porque seus dados dependem de partes anteriores do cálculo. Por preferência, um processador vetorial quer apenas um fluxo de "executar este código simples contra esta enorme matriz" e muitas execuções repetidas em um dado rapidamente consomem largura de banda e núcleos de processador.

    Há evidências de que o desempenho do FP64 em placas de "jogos" é prejudicado devido ao fato de ter muito poucas ou nenhuma unidade com capacidade para FP64. Como resultado, você acaba limitado a fazer matemática de 64 bits "da maneira mais difícil" em registradores de 32 bits.

    • 2

relate perguntas

  • Quantos monitores posso usar ao mesmo tempo?

  • Disco rígido externo lento acesso a arquivos e falhando

  • Como encontrar o uso da CPU conforme mostrado no gerenciador de tarefas usando o monitor de desempenho

  • Core i7 executa muito mal? [fechado]

  • O fenômeno 'Write cliff' só acontece com discos SSD?

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Como posso reduzir o consumo do processo `vmmem`?

    • 11 respostas
  • Marko Smith

    Baixar vídeo do Microsoft Stream

    • 4 respostas
  • Marko Smith

    O Google Chrome DevTools falhou ao analisar o SourceMap: chrome-extension

    • 6 respostas
  • Marko Smith

    O visualizador de fotos do Windows não pode ser executado porque não há memória suficiente?

    • 5 respostas
  • Marko Smith

    Como faço para ativar o WindowsXP agora que o suporte acabou?

    • 6 respostas
  • Marko Smith

    Área de trabalho remota congelando intermitentemente

    • 7 respostas
  • Marko Smith

    O que significa ter uma máscara de sub-rede /32?

    • 6 respostas
  • Marko Smith

    Ponteiro do mouse movendo-se nas teclas de seta pressionadas no Windows?

    • 1 respostas
  • Marko Smith

    O VirtualBox falha ao iniciar com VERR_NEM_VM_CREATE_FAILED

    • 8 respostas
  • Marko Smith

    Os aplicativos não aparecem nas configurações de privacidade da câmera e do microfone no MacBook

    • 5 respostas
  • Martin Hope
    Saaru Lindestøkke Por que os arquivos tar.xz são 15x menores ao usar a biblioteca tar do Python em comparação com o tar do macOS? 2021-03-14 09:37:48 +0800 CST
  • Martin Hope
    CiaranWelsh Como posso reduzir o consumo do processo `vmmem`? 2020-06-10 02:06:58 +0800 CST
  • Martin Hope
    Jim Pesquisa do Windows 10 não está carregando, mostrando janela em branco 2020-02-06 03:28:26 +0800 CST
  • Martin Hope
    v15 Por que uma conexão de Internet gigabit/s via cabo (coaxial) não oferece velocidades simétricas como fibra? 2020-01-25 08:53:31 +0800 CST
  • Martin Hope
    andre_ss6 Área de trabalho remota congelando intermitentemente 2019-09-11 12:56:40 +0800 CST
  • Martin Hope
    Riley Carney Por que colocar um ponto após o URL remove as informações de login? 2019-08-06 10:59:24 +0800 CST
  • Martin Hope
    zdimension Ponteiro do mouse movendo-se nas teclas de seta pressionadas no Windows? 2019-08-04 06:39:57 +0800 CST
  • Martin Hope
    jonsca Todos os meus complementos do Firefox foram desativados repentinamente, como posso reativá-los? 2019-05-04 17:58:52 +0800 CST
  • Martin Hope
    MCK É possível criar um código QR usando texto? 2019-04-02 06:32:14 +0800 CST
  • Martin Hope
    SoniEx2 Altere o nome da ramificação padrão do git init 2019-04-01 06:16:56 +0800 CST

Hot tag

windows-10 linux windows microsoft-excel networking ubuntu worksheet-function bash command-line hard-drive

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve