AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / coding / Perguntas / 79595067
Accepted
OopsUser
OopsUser
Asked: 2025-04-27 21:24:35 +0800 CST2025-04-27 21:24:35 +0800 CST 2025-04-27 21:24:35 +0800 CST

Por que a previsão incorreta de ramificação não afeta o desempenho (C++)?

  • 772

Ao tentar medir o impacto da previsão de erros de ramificação, percebi que não há nenhuma penalidade na previsão de erros de ramificação.

Com base na famosa pergunta de estouro de pilha: Por que processar um array ordenado é mais rápido do que processar um array não ordenado?

Escrevi um trecho simples de código para medir a penalidade da previsão de ramificação.

  • Preencha uma matriz com números aleatórios
  • Conte os números acima de 5 (deve haver muitas previsões erradas) - meça-os
  • Classificar a matriz
  • Conte os números acima de 5 (deve haver poucas previsões erradas) - meça-os

Depois de executar o código, obtive praticamente os mesmos resultados para ambas as medições.

Testado em:

  1. Visual Studio 2017, lançamento (Otimização Máxima (Favorecer Velocidade) (/O2)), Windows.
  2. Linux, g++ -Ofast

Então, peguei o código original da pergunta que linkei acima e ainda não obtive nenhuma melhoria para o array ordenado. Por quê? Qual é a vantagem da previsão de ramificação?

#include <iostream>
#include <vector>
#include <algorithm>
#include <random>
#include <chrono>

int main()
{
    // Step 1: Allocate a vector of size 1 million
    std::vector<int> vec(100'000'000);

    // Step 2: Fill it with random numbers between 0 and 10
    std::random_device rd;
    std::mt19937 gen(rd());
    std::uniform_int_distribution<> dis(0, 10);

    for (auto& val : vec)
    {
        val = dis(gen);
    }

    // Step 3: Count numbers above 5 (and measure time)
    auto start = std::chrono::high_resolution_clock::now();
    int count_above_5 = 0;
    for (size_t i = 0; i < vec.size(); i++)
    {
        if (vec[i] < 5)
        {
            ++count_above_5;
        }
    }

    auto end = std::chrono::high_resolution_clock::now();

    auto duration_before_sort = std::chrono::duration_cast<std::chrono::nanoseconds>(end - start).count();

    std::cout << "Count of numbers above 5 (before sorting): " << count_above_5 << std::endl;
    std::cout << "Time taken (before sorting): " << duration_before_sort << " ns" << std::endl;

    // Step 4: Sort the array
    std::sort(vec.begin(), vec.end());

    // Step 5: Count numbers above 5 in the sorted array (and measure time)

    start = std::chrono::high_resolution_clock::now();
    count_above_5 = 0;
    for (size_t i = 0; i < vec.size(); i++)
    {
        if (vec[i] < 5)
        {
            ++count_above_5;
        }
    }
    end = std::chrono::high_resolution_clock::now();


    auto duration_after_sort = std::chrono::duration_cast<std::chrono::nanoseconds>(end - start).count();

    std::cout << "Count of numbers above 5 (after sorting): " << count_above_5 << std::endl;
    std::cout << "Time taken (after sorting):  " << duration_after_sort << " ns" << std::endl;

    return 0;
}
c++
  • 1 1 respostas
  • 78 Views

1 respostas

  • Voted
  1. Best Answer
    Jérôme Richard
    2025-04-27T22:20:22+08:002025-04-27T22:20:22+08:00

    TL;DR: GCC, MSVC e Clang geram um código de montagem sem ramificação, portanto não há ramificação real e, portanto, não há impacto de previsão de (falha) de ramificação.


    No Linux, com o GCC 14.2.0, na minha máquina, não há impacto devido à previsão de ramificação, pois, na verdade, não há ramificações . De fato, o GCC gera um código assembly sem ramificação com instruções SIMD:

    180:   
        movdqu  xmm2,XMMWORD PTR [rax]   ; Load a block of items from the array `vec`
        movdqa  xmm1,XMMWORD PTR [rsp]   ; Reload xmm1 from memory
        add     rax,0x10                 ; Move the `rax` pointer to the next block
        pcmpgtd xmm1,xmm2                ; Compare items of the block with 5 and move the mask in `xmm1`
        psubd   xmm0,xmm1                ; Increment the number of item found in `xmm0`
        cmp     rax,rbp                  ; Loop until we reach the last block
        jne     180            
    

    No Godbolt , podemos ver que tanto o MSVC quanto o Clang também geram código sem ramificação. Aqui está o código produzido pelo MSVC (não usa instruções SIMD, mas cmovgesim, que devem ser menos eficientes):

    $LL7@main:
        lea     eax, DWORD PTR [rdi+1]
        cmp     DWORD PTR [rsi+rcx*4], 5
        cmovge  eax, edi
        mov     edi, eax
        inc     rcx
        cmp     rcx, r14
        jb      SHORT $LL7@main
    

    Aqui está o código produzido pelo Clang (usa a instrução SIMD e desenrola o loop 4 vezes):

    .LBB0_10:
        movdqu  xmm0, xmmword ptr [rbx + 4*r12 - 48]
        movdqu  xmm1, xmmword ptr [rbx + 4*r12 - 32]
        movdqu  xmm2, xmmword ptr [rbx + 4*r12 - 16]
        movdqu  xmm3, xmmword ptr [rbx + 4*r12]
        movdqa  xmm4, xmm5
        pcmpgtd xmm4, xmm0
        psubd   xmm6, xmm4
        movdqa  xmm0, xmm5
        pcmpgtd xmm0, xmm1
        psubd   xmm7, xmm0
        movdqa  xmm0, xmm5
        pcmpgtd xmm0, xmm2
        psubd   xmm6, xmm0
        movdqa  xmm0, xmm5
        pcmpgtd xmm0, xmm3
        psubd   xmm7, xmm0
        add     r12, 16
        cmp     r12, 100012
        jne     .LBB0_10
    
    • 6

relate perguntas

  • Por que os compiladores perdem a vetorização aqui?

  • Erro de compilação usando CMake com biblioteca [fechada]

  • Erro lançado toda vez que tento executar o premake

  • Como criar um tipo de octeto semelhante a std::byte em C++?

  • Somente operações bit a bit para std::byte em C++ 17?

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Reformatar números, inserindo separadores em posições fixas

    • 6 respostas
  • Marko Smith

    Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

    • 2 respostas
  • Marko Smith

    Problema com extensão desinstalada automaticamente do VScode (tema Material)

    • 2 respostas
  • Marko Smith

    Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

    • 1 respostas
  • Marko Smith

    Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

    • 1 respostas
  • Marko Smith

    Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

    • 6 respostas
  • Marko Smith

    `(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

    • 3 respostas
  • Marko Smith

    Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

    • 1 respostas
  • Marko Smith

    PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

    • 2 respostas
  • Marko Smith

    AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

    • 1 respostas
  • Martin Hope
    Fantastic Mr Fox Somente o tipo copiável não é aceito na implementação std::vector do MSVC 2025-04-23 06:40:49 +0800 CST
  • Martin Hope
    Howard Hinnant Encontre o próximo dia da semana usando o cronógrafo 2025-04-21 08:30:25 +0800 CST
  • Martin Hope
    Fedor O inicializador de membro do construtor pode incluir a inicialização de outro membro? 2025-04-15 01:01:44 +0800 CST
  • Martin Hope
    Petr Filipský Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não? 2025-03-23 21:39:40 +0800 CST
  • Martin Hope
    Catskul O C++20 mudou para permitir a conversão de `type(&)[N]` de matriz de limites conhecidos para `type(&)[]` de matriz de limites desconhecidos? 2025-03-04 06:57:53 +0800 CST
  • Martin Hope
    Stefan Pochmann Como/por que {2,3,10} e {x,3,10} com x=2 são ordenados de forma diferente? 2025-01-13 23:24:07 +0800 CST
  • Martin Hope
    Chad Feller O ponto e vírgula agora é opcional em condicionais bash com [[ .. ]] na versão 5.2? 2024-10-21 05:50:33 +0800 CST
  • Martin Hope
    Wrench Por que um traço duplo (--) faz com que esta cláusula MariaDB seja avaliada como verdadeira? 2024-05-05 13:37:20 +0800 CST
  • Martin Hope
    Waket Zheng Por que `dict(id=1, **{'id': 2})` às vezes gera `KeyError: 'id'` em vez de um TypeError? 2024-05-04 14:19:19 +0800 CST
  • Martin Hope
    user924 AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos 2024-03-20 03:12:31 +0800 CST

Hot tag

python javascript c++ c# java typescript sql reactjs html

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve