AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / coding / Perguntas / 79592758
Accepted
Tom McLean
Tom McLean
Asked: 2025-04-25 22:51:29 +0800 CST2025-04-25 22:51:29 +0800 CST 2025-04-25 22:51:29 +0800 CST

Por que meu benchmark usando __mm_prefetch é mais lento?

  • 772

Estou tentando aprender algumas otimizações em C++ e tentei usar __mm_prefetchpara somar um array. Os testes de benchmark para o meu código são:

#include <benchmark/benchmark.h>
#include <vector>


#if defined(__GNUC__) || defined(__clang__)
    #define PREFETCH(addr, hint) __builtin_prefetch(addr, 0, hint)
#elif defined(_MSC_VER)
    #include <xmmintrin.h>
    #define PREFETCH(addr, hint) _mm_prefetch(reinterpret_cast<const char*>(addr), hint)
#else
    #define PREFETCH(addr, hint)
#endif


class PrefetchBenchmark : public benchmark::Fixture {
public:
    static constexpr size_t data_size = 1 << 20;

    void SetUp(const benchmark::State& state) override {
        data.resize(data_size, 1);
    }

    void TearDown(const benchmark::State& state) override {

    }

    std::vector<int> data;
};


BENCHMARK_F(PrefetchBenchmark, NoPrefetch)(benchmark::State& state) {
    for (auto _ : state) {
        long sum = 0;
        for (const auto& i : data) {
            sum += i;
        }
        benchmark::DoNotOptimize(sum);
    }
}


BENCHMARK_F(PrefetchBenchmark, WithPrefetch)(benchmark::State& state) {
    int prefetch_distance = 10;
    for (auto _ : state) {
        long sum = 0;
        for (int i = 0; i < data.size(); i++) {
            if (i + prefetch_distance < data.size()) {
                PREFETCH(&data[i + prefetch_distance], 3);
            }
            sum += data[i];
        }
        benchmark::DoNotOptimize(sum);
    }
}

No entanto, o benchmark é executado consistentemente lento com a pré-busca

PrefetchBenchmark/NoPrefetch       348484 ns       344905 ns         1948
PrefetchBenchmark/WithPrefetch     595119 ns       585938 ns         1120

Por que isso acontece e como eu poderia fazer um teste que aumentasse o desempenho usando __mm_prefetch?

Meu repositório git para meus benchmarks para um exemplo completo está aqui

c++
  • 1 1 respostas
  • 83 Views

1 respostas

  • Voted
  1. Best Answer
    Marco Bonelli
    2025-04-26T01:16:27+08:002025-04-26T01:16:27+08:00

    Primeiro, seu código está introduzindo uma ramificação desnecessária, o que muito provavelmente torna as coisas mais lentas e pode ser evitado:

    /* Original */
    for (int i = 0; i < data.size(); i++) {
        if (i + prefetch_distance < data.size()) {
            PREFETCH(&data[i + prefetch_distance], 3);
        }
        sum += data[i];
    }
    
    /* Updated code */
    int i;
    for (i = 0; i < data.size() - prefetch_distance; i++) {
        PREFETCH(&data[i + prefetch_distance], 3);
        sum += data[i];
    }
    for ( ; i < data.size(); i++)
        sum += data[i];
    

    Agora, analisando o código sem ramificação: a causa raiz do problema parece ser a incapacidade do compilador de vetorizar corretamente o loop com instruções SIMD quando __builtin_prefetch()usado em seu corpo. O NoPrefetchcódigo é vetorizado, mas não é pré-buscado explicitamente. O WithPrefetchcódigo é pré-perfeito explicitamente, mas não vetorizado. A lentidão causada pela vetorização perdida é muito mais severa do que a aceleração causada pela pré-busca explícita.

    Um relatório de bug interessante do GCC esclarece o problema: Bug 114061 - GCC falha na vetorização ao usar __builtin_prefetch . Pelo menos para o GCC, parece que o compilador assume que você __builtin_prefetch(&data[i + x])sobrecarrega a memória e faz uma chamada de função (faz sentido evitar a vetorização nesse caso), mesmo que a chamada seja para uma função interna que atua como uma operação não operacional.

    O GCC 15 deveria ter uma correção para superar essa limitação e permitir o built-in sem interromper a vetorização. No entanto, pelo que vejo no Godbolt.org , embora o trunk do GCC 16 vetorize o loop, ele ignora completamente a pré-busca, deixando-a completamente fora do loop. Portanto, ainda me parece quebrado.


    Então, como você pode "consertar" isso, se necessário? Bem, infelizmente você não pode confiar no compilador para vetorizar corretamente com sua pré-busca explícita. Além disso, mesmo que um compilador específico seja inteligente o suficiente para lidar com isso (parece que nenhum dos principais é), parece improvável que todos os compiladores acertem em uma compilação multiplataforma. Isso significa que, como você já notou, você terá que aplicar a vetorização manualmente e inserir uma pré-busca conforme necessário.

    Sim, a pré-busca de software pode ser benéfica, mas, em geral, é uma tarefa de otimização difícil, com muita tentativa e erro empíricos, principalmente porque a pré-busca de hardware já é muito boa hoje em dia. Veja a resposta em "Posso ler um sinalizador de CPU x86 para determinar se os dados pré-buscados chegaram ao cache L1?" . Se a pré-busca de software for muito cedo (longa distância), os dados serão removidos no momento em que você quiser usá-los. Se a pré-busca de software for muito tarde (pequena distância), a operação se torna inoperante, pois a pré-busca de hardware já ocorreu.

    No código de exemplo abaixo , com prefetch_disancedefinido como um valor pequeno como 8, o desempenho diminui em vez de aumentar porque você está pré-buscando dados que já estavam no cache:

    PrefetchBenchmark/ManualSIMDWithPrefetch     151742 ns       151738 ns         4599
    PrefetchBenchmark/ManualSIMD                 145401 ns       145401 ns         4790
    

    Isso faz sentido, visto que uma linha de cache já cobre 64/4 = 16 intvalores contíguos (assumindo 32 bits int) e a pré-busca de hardware provavelmente já está carregando mais de uma linha de cache à frente. CPUs modernas [x86] já são muito boas em pré-busca de hardware para padrões simples de acesso à memória, como acesso sequencial.

    Aumentando prefetch_disancepara um valor maior, como 64ou 128você pode começar a ver uma melhoria (já que estou no x86 Skylake):

    PrefetchBenchmark/ManualSIMDWithPrefetch     137408 ns       137407 ns         5022
    PrefetchBenchmark/ManualSIMD                 146430 ns       146429 ns         4803
    

    Código de exemplo:

    static inline long simd_sum8(const std::vector<int> &data, const int i) {
        __m128i vec1 = _mm_loadu_si128(reinterpret_cast<const __m128i*>(&data[i]));
        __m128i vec2 = _mm_loadu_si128(reinterpret_cast<const __m128i*>(&data[i + 4]));
        __m128i sum_vec = _mm_add_epi32(vec1, vec2);
    
        int temp[4];
        _mm_storeu_si128(reinterpret_cast<__m128i*>(temp), sum_vec);
        return temp[0] + temp[1] + temp[2] + temp[3];
    }
    
    BENCHMARK_F(PrefetchBenchmark, ManualSIMDWithPrefetch)(benchmark::State& state) {
        for (auto _ : state) {
            long sum = 0;
            int i = 0;
            int size = static_cast<int>(data.size());
    
            // TODO: benchmark and tune this!
            constexpr int prefetch_disance = 128;
    
            for (; i <= size - prefetch_disance; i += 8) {
                PREFETCH(&data[i + prefetch_disance], 3);
                sum += simd_sum8(data, i);
            }
    
            for (; i < size; ++i) {
                sum += data[i];
            }
    
            benchmark::DoNotOptimize(sum);
        }
    }
    
    BENCHMARK_F(PrefetchBenchmark, ManualSIMD)(benchmark::State& state) {
        for (auto _ : state) {
            long sum = 0;
            int i = 0;
            int size = static_cast<int>(data.size());
    
            for (; i < size; i += 8)
                sum += simd_sum8(data, i);
    
            benchmark::DoNotOptimize(sum);
        }
    }
    
    • 4

relate perguntas

  • Por que os compiladores perdem a vetorização aqui?

  • Erro de compilação usando CMake com biblioteca [fechada]

  • Erro lançado toda vez que tento executar o premake

  • Como criar um tipo de octeto semelhante a std::byte em C++?

  • Somente operações bit a bit para std::byte em C++ 17?

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Reformatar números, inserindo separadores em posições fixas

    • 6 respostas
  • Marko Smith

    Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

    • 2 respostas
  • Marko Smith

    Problema com extensão desinstalada automaticamente do VScode (tema Material)

    • 2 respostas
  • Marko Smith

    Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

    • 1 respostas
  • Marko Smith

    Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

    • 1 respostas
  • Marko Smith

    Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

    • 6 respostas
  • Marko Smith

    `(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

    • 3 respostas
  • Marko Smith

    Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

    • 1 respostas
  • Marko Smith

    PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

    • 2 respostas
  • Marko Smith

    AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

    • 1 respostas
  • Martin Hope
    Fantastic Mr Fox Somente o tipo copiável não é aceito na implementação std::vector do MSVC 2025-04-23 06:40:49 +0800 CST
  • Martin Hope
    Howard Hinnant Encontre o próximo dia da semana usando o cronógrafo 2025-04-21 08:30:25 +0800 CST
  • Martin Hope
    Fedor O inicializador de membro do construtor pode incluir a inicialização de outro membro? 2025-04-15 01:01:44 +0800 CST
  • Martin Hope
    Petr Filipský Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não? 2025-03-23 21:39:40 +0800 CST
  • Martin Hope
    Catskul O C++20 mudou para permitir a conversão de `type(&)[N]` de matriz de limites conhecidos para `type(&)[]` de matriz de limites desconhecidos? 2025-03-04 06:57:53 +0800 CST
  • Martin Hope
    Stefan Pochmann Como/por que {2,3,10} e {x,3,10} com x=2 são ordenados de forma diferente? 2025-01-13 23:24:07 +0800 CST
  • Martin Hope
    Chad Feller O ponto e vírgula agora é opcional em condicionais bash com [[ .. ]] na versão 5.2? 2024-10-21 05:50:33 +0800 CST
  • Martin Hope
    Wrench Por que um traço duplo (--) faz com que esta cláusula MariaDB seja avaliada como verdadeira? 2024-05-05 13:37:20 +0800 CST
  • Martin Hope
    Waket Zheng Por que `dict(id=1, **{'id': 2})` às vezes gera `KeyError: 'id'` em vez de um TypeError? 2024-05-04 14:19:19 +0800 CST
  • Martin Hope
    user924 AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos 2024-03-20 03:12:31 +0800 CST

Hot tag

python javascript c++ c# java typescript sql reactjs html

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve