Juliean提出的问题 -coding

Juliean

Asked: 2024-10-16 01:00:06 +0800 CST

函数调用的隐式空检查

7

隐式空值检查是一种技术，用于在高级语言本机表示中移除对空指针/引用的显式检查，而是依靠处理器发出访问冲突，然后对其进行处理（即 SEH），并将其转换为托管异常。它主要用于异常处理开销次要的情况，例如，如果我们知道空值异常很少见。

在我发现的所有例子中，这些检查都是针对访问相关 ptr 的语句进行的：

int m(Foo foo) {
  return foo.x;
}

这里，我们可以简单地发出 asm 代码：

mov rax,[rcx]

并让本机异常处理机制处理生成 NullReferenceException，而不是崩溃。

但是，函数调用又如何呢？

int m(Foo foo) {
  return foo.MemberFunction();
}

是否也可以在那里使用隐式空检查？我对 x64-asm 特别感兴趣。那里似乎更难。让我们看一个 asm 中的非虚拟函数调用示例（代码与函数 1:1 不匹配，它包含一个“mov”，只是为了显示一个对象被设置到用于 Windows 上的成员函数调用的寄存器中）：

mov     rcx,[rsp+20h]           // load target-object from stack-local (Foo*)
call    Foo::MemberFunction     // call Foo::MemberFunction, can be represented with an address w/o fixups of the ptr

在这里，我们无法访问“rcx”指向的内存。因此，如果根据语言的定义，这样的调用必须在调用点抛出 NullReferenceException，我们需要使用显式检查：

mov     rcx,[rsp+32h]           // load target-object from stack-local (Foo*)
test    rcx,rcx
je      .L0                     // exception-handler already moved out of hot-path
call    Foo::MemberFunction     // call Foo::MemberFunction, can be represented with an address w/o fixups of the ptr 

...
.L0:
call throwNullReferenceException();

或者有没有更有效的方法用一条产生访问冲突的指令替换 test+je 对？我想我可以这样做

mov     rcx,[rsp+32h]           // load target-object from stack-local (Foo*)
mov     rax,[rcx]               // mov into unused reg, to trigger access-violation
call    Foo::MemberFunction     // call Foo::MemberFunction, can be represented with an address w/o fixups of the ptr

这不会使用分支，也不需要额外调用异常调用。但是，它可能需要读取 [rcx] 的内存，而另一种方法不需要。与分支相比，它的性能如何？如果更差，有没有更好的方法？请参阅下文以进一步解释完整的用例。

背景

我有一种自定义的高级语言，它被编译为字节码，然后被编译为本机 ASM。该语言使用 NullReference 异常优雅地处理空检查。异常仍然始终是需要解决的错误，而不是正常发生的事件。因此，处理异常的代码可能效率低下。重要的是，在通常没有异常（因此没有空引用）的情况下，代码运行得尽可能快。这就是隐式空检查看起来很有吸引力的原因。删除处理调用异常所需的所有分支和额外代码可能会有益。不过，即使是现有的检查也应该已经很快了。分支应该可以很好地预测为始终为假，并且我已经这样做了，所以这种情况根本不需要 jmp，而是让代码线性执行（我读过这是更优化的）。

那么考虑到这一点，我在上述情况下试图摆脱这些检查是否愚蠢，或者是否有某种方法可以最佳地实现它？

Juliean

Asked: 2024-03-08 19:02:55 +0800 CST

使用修改后的返回地址进行 CALL

10

在 x64 程序集中处理 CALL 的最佳方法是什么，它应该返回到稍微偏移的返回地址？主要涉及效率/执行速度。我将简要解释一下我正在尝试做什么。

背景

我有一种自定义的解释型可视脚本语言，可以编译为本机代码。这种语言具有内置的基于堆栈的协程，以前它们仍然是半解释的（使用单独的堆栈类来存储协程数据）。我正在将其完全本地化，因此仅使用 RSP。

这些协程的一部分是嵌套屈服的能力，这意味着如果协程调用另一个屈服方法，该方法可以在内部屈服以挂起整个调用。该信息通过存储在寄存器中的“YieldState”结构进行处理。这意味着，对于新的完全本地化变体，我们可以使用调用指令从协程中调用生成方法：

call      12345; // [rip+12345] => yieldingMethod

至少在理论上是这样。由于我们的协程是基于堆栈的，因此我们将局部变量简单地存储在堆栈上，而不是像无堆栈协程那样存储在某种类中。这需要通过另一种方法来处理清理（如果协程在完成之前被破坏），我将其称为“中断处理程序”。在我的实际用例中，调用这种中断处理程序很常见，但也不过分。所以我的目标是提供比异常处理程序更快的东西（通常需要对框架进行一些全局查找），但不需要为每个调用显式设置此地址。所以我所做的就是在调用和返回地址之间嵌入中断处理程序地址 - 因为对于旧版本的代码，我们必须手动加载返回，这不是问题：

lea rcx,[rip+25]; // 25 is the assumed byte-size up until the return address
mov rdx,rbx;      // load non-native call stack
call prepareMethodYielding; // stores return-address on stack
jmp 12345;        // actually call our "yieldingMethod"
mov r15,interruptAddress;

最后一条指令永远不会被执行——我们保留返回地址来实际跳过它。我们在这里只有它能够查找中断处理程序。给定一个恢复地址，我们只需将指针减 8，就得到了恢复中断的地址。在我们的例子中，“mov r15”只是为了让我们能够正确反汇编代码；我们可以单独嵌入地址，但这会使任何外部反汇编程序感到困惑。

实际问题

现在在新版本中，没有“prepareMethodYielding”，而只有一个调用 - 至少是最佳的。但“调用”本身不允许我们修改返回地址，所以这里我面临几个选项，我想知道哪一个是最好的。

选项 A - lea + push + jmp

我们的第一个选择是模拟“调用”，但手动推送返回地址：

lea         rax,[rip+10h]
push        rax
jmp         A6 // yieldingMethod

这需要 3 条指令，但不需要访问内存。

选项 B - 从内存中推送

我们可以通过将返回地址存储在常量内存的某个区域来减少选项的数量：

push        qword ptr[rip+1234] // return-address stored here
jmp         A6                  // yieldingMethod

现在我们只需要一次推送，不需要中间寄存器，尽管现在我们需要访问内存，这可能在数据部分更远。

选项 C - 修改被调用函数中的返回地址

我看到的另一个选择是调整被调用方法内的调用生成的返回地址。这里的所有这些方法都是使用我自己的调用约定编译的，因此它们不遵守 x64 或任何其他。

// caller
call     A6                 // yielding method

// callee, first instruction
add      qword ptr[rsp],10  // size of interrupt-embedding is always the same

这也只是一条指令，具有较小的编码。尽管仅从设计角度来看，我不太喜欢它，因为它将有关被调用者嵌入到调用者中的信息耦合在一起 - 不过，如果这是最有效的变体，我可能仍然会选择它。

选项 D - 根本不修改返回地址

我们的最后一个选择是根本不修改返回地址，而是更改查找和返回的处理方式。

call      12345;                // yieldingMethod
mov       r15,interruptAddress; // is actually executed now (but value is not used)

因此，在这里，我们将更改查找中断地址的位置（因为返回地址现在指向假指令的前面，而不是后面）。然后，从调用返回后，我们将执行 movabs 指令，但丢弃加载的值。这里的好处是整体代码大小是最小的，因为我们不需要添加任何尚不存在的附加指令。但是，我们正在执行 10 字节 mov 指令，这可能比其他一些变体慢。这在某种程度上取决于 CPU 正在做什么——如果它已经解码了假指令，即使它没有直接到达它，最好的办法就是执行它，而不是修改返回地址。同样的事情，如果 CPU 能够以某种方式检测到指令没有效果，因为它的值永远不会被读取，在寄存器重命名期间，那么它实际上可以是免费的 - atm，我正在使用一个未使用的寄存器，以区分我自己的汇编器；但我想，使用很快就会被覆盖的寄存器可能是有意义的。尽管我不确定这里实际会发生什么。

结论

那么，这 4 个选项中哪一个对您来说最有效？我也对其他想法持开放态度，尽管协程如何完成的总体设计已经完成并且功能齐全，因此像使用 IIRC 某些协程使用的基于状态机的方法之类的方法在这里并不是真正的选择。

Juliean

Asked: 2024-01-08 19:12:32 +0800 CST

不同系统上关于 dwPageSize 的假设

8

当针对相同架构（即 x86_64）时，我们可以对不同系统上的 SYSTEM_INFO dwPageSize 做出任何假设吗？

我生成一些自定义本机代码，这些代码通过 VirtualAlloc 与 C++ 应用程序一起加载。该代码有 3 个不同的部分（代码、cdata、动态静态变量），它们都需要通过 VirtualProtect 进行不同的保护（执行；读取；读写），因此需要位于不同的页面中。代码通过 RIP 相对寻址引用 cdata 和静态变量。

我想知道我是否可以假设，如果在 x64 上构建时，dwPageSize 为 4096，那么它在其他 x64 系统上也将具有相同的值（或者至少更小，但永远不会更大）？如果是这样，我可以按原样获取 RIP 相对地址，因为我可以确保所有数据都放置在相同的页面大小相对偏移处。如果目标系统上的页面可能更大，我需要在加载代码时修复这些偏移量。

函数调用的隐式空检查

使用修改后的返回地址进行 CALL

不同系统上关于 dwPageSize 的假设

重新格式化数字，在固定位置插入分隔符

为什么 C++20 概念会导致循环约束错误，而老式的 SFINAE 不会？

VScode 自动卸载扩展的问题（Material 主题）

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

Juliean's questions