Eu estava tentando medir o custo de uma indireção, já que empilhar indireções umas sobre as outras pode degradar o desempenho específico que estou tentando medir.
- Chamada de função direta (chamar função na mesma DLL diretamente, provavelmente em linha)
- Chamada de função indireta (chama uma função em outra DLL por meio de um ponteiro, não embutido)
- chamada de função virtual.
- chamada de função virtual e, em seguida, uma chamada de função indireta (uma classe polimórfica que contém um ponteiro de função).
Para evitar que o compilador faça qualquer inlining, eu o dividi em um exe
e umdll
código executável
#include <limits.h>
#include <vector>
#include <chrono>
#include <iostream>
#include <span>
static int foo(int a, std::vector<int>& v) {
v.push_back(a);
if (v.size() > 2)
{
v.clear();
}
return a;
}
struct IFooable
{
virtual int foo(int a) = 0;
};
__declspec(dllimport) int foo2(int a, std::vector<int>& v);
__declspec(dllimport) int direct_version(std::vector<int>& v);
__declspec(dllimport) int indirect_version(int (*fn)(int, void*), void* p);
__declspec(dllimport) int indirect_Interface(IFooable& f);
struct MyFoo final: public IFooable
{
int foo(int a) override
{
return ::foo(a, v);
}
MyFoo(std::vector<int>& v) : v{ v } {}
std::vector<int>& v;
};
struct MyFoo2 final : public IFooable
{
using functype = int (*)(int, std::vector<int>&);
int foo(int a) override
{
return f(a, v);
}
MyFoo2(std::vector<int>& v, functype f) : v{ v }, f{ f } {}
std::vector<int>& v;
functype f;
};
int main(int argc, char* argv[]) {
std::vector<int> v;
for (int i = 0; i < 20; i++)
{
foo(i, v);
}
std::chrono::steady_clock::time_point begin = std::chrono::steady_clock::now();
direct_version(v);
std::chrono::steady_clock::time_point end1 = std::chrono::steady_clock::now();
indirect_version([](int a, void* p) {return foo(a, *reinterpret_cast<std::vector<int>*>(p)); }, reinterpret_cast<void*>(&v));
std::chrono::steady_clock::time_point end2 = std::chrono::steady_clock::now();
MyFoo ff{ v };
indirect_Interface(ff);
std::chrono::steady_clock::time_point end3 = std::chrono::steady_clock::now();
MyFoo2 ff2{ v, foo2 };
indirect_Interface(ff2);
std::chrono::steady_clock::time_point end4 = std::chrono::steady_clock::now();
std::cout << std::chrono::duration_cast<std::chrono::milliseconds>(end1 - begin).count() << "[ms] " << "Direct" << std::endl;
std::cout << std::chrono::duration_cast<std::chrono::milliseconds>(end2 - end1).count() << "[ms] " << "Indirect" << std::endl;
std::cout << std::chrono::duration_cast<std::chrono::milliseconds>(end3 - end2).count() << "[ms] " << "Virtual" << std::endl;
std::cout << std::chrono::duration_cast<std::chrono::milliseconds>(end4 - end3).count() << "[ms] " << "Virtual + Indirect" << std::endl;
double micros_count = std::chrono::duration_cast<std::chrono::milliseconds>(end2 - end1).count();
double iterations = INT_MAX;
std::cout << "nanoseconds per iteration = " << (micros_count / iterations) * 1000000 << '\n';
return 0;
}
código dll
// dllmain.cpp : Defines the entry point for the DLL application.
#include "pch.h"
#include <vector>
#include <span>
BOOL APIENTRY DllMain( HMODULE hModule,
DWORD ul_reason_for_call,
LPVOID lpReserved
)
{
switch (ul_reason_for_call)
{
case DLL_PROCESS_ATTACH:
case DLL_THREAD_ATTACH:
case DLL_THREAD_DETACH:
case DLL_PROCESS_DETACH:
break;
}
return TRUE;
}
struct IFooable
{
virtual int foo(int a) = 0;
};
static int foo(int a, std::vector<int>& v) {
v.push_back(a);
if (v.size() > 2)
{
v.clear();
}
return a;
}
__declspec(dllexport) int foo2(int a, std::vector<int>& v) {
v.push_back(a);
if (v.size() > 2)
{
v.clear();
}
return a;
}
__declspec(dllexport) int direct_version(std::vector<int>& v) {
int i, b = 0;
for (i = 0; i < INT_MAX; ++i) {
b = foo(b, v);
}
return b;
}
__declspec(dllexport) int indirect_version(int (*fn)(int, void*), void* p) {
int i, b = 0;
for (i = 0; i < INT_MAX; ++i) {
b = fn(b, p);
}
return b;
}
__declspec(dllexport) int indirect_Interface(IFooable& f) {
int i, b = 0;
for (i = 0; i < INT_MAX; ++i) {
b = f.foo(b);
}
return b;
}
elas são compiladas no modo de lançamento, então /O2
, o benchmark é construído de uma forma que evita qualquer perda de cache, e provavelmente permite que a CPU preveja para onde todas as funções apontarão, já que não estou interessado no custo de uma previsão incorreta de ramificação ou uma perda de cache, além disso, a função não é trivial, mas suficientemente pequena, e eu verifiquei o assembly e nada está embutido como esperado.
resultado:
3058[ms] Direct
8279[ms] Indirect
9109[ms] Virtual
7340[ms] Virtual + Indirect
nanoseconds per iteration = 3.85521
Uma função virtual é um pouco mais lenta que uma chamada indireta, como esperado, mas uma chamada virtual + indireta é mais rápida que qualquer uma delas... isso não faz sentido.
Minha pergunta é: por que a função virtual + indireção é mais rápida do que qualquer uma delas sozinha? E eu deveria esperar que o custo dessa indireção em cascata aumentasse?
Não é incomum ter uma API C++ com funções virtuais encapsulando uma API C que está em outra DLL, então este benchmark é o mais próximo possível do mundo real.
trocar a ordem das chamadas não muda nada, elas também são longas o suficiente para que qualquer fator como aumento de velocidade da CPU, superaquecimento e agendador não afete o benchmark.
Editar: parece que as verificações de estouro de buffer distorceram um pouco os resultados. Agora, esses são os resultados mais recentes, sem essas verificações extras.
3051[ms] Direct
6182[ms] Indirect
8002[ms] Virtual
7616[ms] Virtual + Indirect
nanoseconds per iteration = 2.87872
ainda virtual + Indireto é mais rápido que apenas virtual, o que é muito estranho.
Os resultados não são "mágicos", mas sim uma manifestação de como CPUs e compiladores modernos lidam com chamadas indiretas, chamadas virtuais e previsão de ramificação. Em microbenchmarks como este, o custo de uma única camada de indireção pode ser fortemente influenciado por quão previsível é a ramificação e como o mecanismo de execução da CPU canaliza o trabalho.
Sou o autor da biblioteca Proxy que implementa a eliminação de tipos sem herança. Também tive dificuldade em criar benchmarks comparando com funções virtuais (e outros recursos de eliminação de tipos no padrão). Aqui estão as estratégias que uso para evitar otimizações inesperadas:
Coloque a produção e o consumo de objetos facilitados por tipo (objetos com funções virtuais, std::any, etc.) em unidades de tradução separadas. Semelhante à solução DLL que você forneceu, mas sem a sobrecarga adicional de chamadas cross-ABI.
Use uma variedade suficiente de tipos alternadamente para testes para evitar criar hotspots claramente previsíveis. Usei 100 tipos para cada benchmark de invocação.
Execute um número suficiente de rodadas aleatoriamente para compensar a instabilidade causada pela troca de contexto incontrolável no sistema operacional.
Por favor, encontre minha implementação de benchmark do Proxy aqui . Eu também implementei uma ferramenta para gerar relatórios de benchmarking legíveis por humanos. Os relatórios gerados podem ser encontrados em cada build de CI (benchmarking-report). Os números são bem estáveis.