如何删除 TMS Web Core 项目上的“未经许可的试用版”消息？[关闭]

Question

Ross

Asked: 2025-04-21 14:10:44 +0800 CST2025-04-21 14:10:44 +0800 CST 2025-04-21 14:10:44 +0800 CST

快速 Delphi ASM ASCII 字符串比较可选忽略第一个字符

772

我希望有汇编语言经验的人能帮我写一个 Delphi 函数，如果字符串以 Chr(127) 开头，则忽略该字符串的第一个字符。这个函数用于排序比较，当比较 30,000 个条目时，由于必须在比较之前从第二个字符复制文本，因此速度非常慢。这是原始函数。

function CompareText(const S1, S2: string): Integer; assembler;
asm
        PUSH    ESI
        PUSH    EDI
        PUSH    EBX
        MOV     ESI,EAX
        MOV     EDI,EDX
        OR      EAX,EAX
        JE      @@0
        MOV     EAX,[EAX-4]
@@0:    OR      EDX,EDX
        JE      @@1
        MOV     EDX,[EDX-4]
@@1:    MOV     ECX,EAX
        CMP     ECX,EDX
        JBE     @@2
        MOV     ECX,EDX
@@2:    CMP     ECX,ECX
@@3:    REPE    CMPSB
        JE      @@6
        MOV     BL,BYTE PTR [ESI-1]
        CMP     BL,'a'
        JB      @@4
        CMP     BL,'z'
        JA      @@4
        SUB     BL,20H
@@4:    MOV     BH,BYTE PTR [EDI-1]
        CMP     BH,'a'
        JB      @@5
        CMP     BH,'z'
        JA      @@5
        SUB     BH,20H
@@5:    CMP     BL,BH
        JE      @@3
        MOVZX   EAX,BL
        MOVZX   EDX,BH
@@6:    SUB     EAX,EDX
        POP     EBX
        POP     EDI
        POP     ESI
end;

如果您能帮忙的话非常感谢。

1 个回答

Voted

Sep Roland · Answer 1 · 2025-04-22T06:34:35+08:00

如果字符串以 Chr(127) 开头，则忽略该字符串的第一个字符。

我当然明白“在比较之前必须从第二个字符开始复制文本”会非常慢。
你不需要复制任何东西。在 Chr(127) 的情况下，你只需将字符串中的第二个位置视为其真正的起始位置即可。在代码中，这意味着增加 ESI/EDI 的地址，同时减少 EAX/EDX 的长度。

为了获得更好的性能，不要使用 BL 和 BH，而是使用完整的 32 位寄存器，即使这意味着保留像 EBP 这样的额外寄存器。

     push    esi
     push    edi
     push    ebx
     push    ebp

     mov     esi, eax             ; 1st string
     test    eax, eax             ; NULL pointer ?
     jz      @@0
     mov     eax, [esi-4]         ; LEN
     test    eax, eax             ; Is length 0 ?
     jz      @@0
     cmp     byte ptr [esi], 127  ; Is first char Chr(127) ?
     jne     @@0
     inc     esi                  ; Skip Chr(127)
     dec     eax                  ; LEN--

@@0: mov     edi, edx             ; 2nd string
     test    edx, edx             ; NULL pointer ?
     jz      @@1
     mov     edx, [edi-4]         ; LEN
     test    edx, edx             ; Is length 0 ?
     jz      @@1
     cmp     byte ptr [edi], 127  ; Is first char Chr(127) ?
     jne     @@1
     inc     edi                  ; Skip Chr(127)
     dec     edx                  ; LEN--

@@1: mov     ecx, eax             ; Get shorter length to ECX
     cmp     eax, edx
     jbe     @@2
     mov     ecx, edx

@@2: dec     ecx
     js      @@5                  ; `JS` bypasses the loop if ECX was initially zero
     movzx   ebx, byte ptr [esi]
     inc     esi
     movzx   ebp, byte ptr [edi]
     inc     edi
     cmp     ebx, ebp
     je      @@2

     cmp     ebx, 'A'
     jb      @@3
     cmp     ebx, 'Z'
     ja      @@3
     or      ebx, 32              ; LCase
@@3: cmp     ebp, 'A'
     jb      @@4
     cmp     ebp, 'Z'
     ja      @@4
     or      ebp, 32              ; LCase
@@4: cmp     ebx, ebp
     je      @@2
     mov     eax, ebx
     mov     edx, ebp

@@5: sub     eax, edx
     pop     ebp
     pop     ebx
     pop     edi
     pop     esi

我确信循环，特别是它的 LCase 部分可以进一步优化，但我认为忽略前导 Chr(127) 的主要问题已经解决了……

有一个小算法问题

你的主循环 ( @@3) 本质上包含两部分：一部分进行“按原样”比较 ( )，另一部分进行“不区分大小写”比较。如果后者是循环中唯一的部分cmpsb，那么它就有意义，但是，与第一部分结合，它应该只用于确认为字母的当前字节。

我不知道您的任何字符串是否包含从 91 到 96 范围内的 ASCII 代码，但如果是这样的话，那么目前您的原始代码可能会因 UCase 的发生而错误地报告来自 [a,z] 的任何字符串和来自 ]Z,a[ 的任何字符串之间的比较，同样，由于 LCase 的发生，我的第一个代码也可能因 LCase 的发生而错误地报告来自 [A,Z] 的任何字符串和来自 ]Z,a[ 的任何字符串之间的比较。

这是修改后的代码：

     ...

@@2: dec     ecx
     js      @@4                  ; `JS` bypasses the loop if ECX was initially zero
     movzx   ebx, byte ptr [esi]
     inc     esi
     movzx   ebp, byte ptr [edi]
     inc     edi
     ; *** part 1 (compare as-is) ***
     cmp     ebx, ebp
     je      @@2
     ; *** part 2 (compare case-insensitively) ***
     or      ebx, 32              ; LCase
     sub     ebx, 'a'
     cmp     ebx, 25
     ja      @@3                  ; It is not an alphabetical
     or      ebp, 32              ; LCase
     sub     ebp, 'a'
     cmp     ebp, 25
     ja      @@3                  ; It is not an alphabetical
     cmp     ebx, ebp
     je      @@2                  ; Only their case was different
     mov     eax, ebx
     mov     edx, ebp
     jmp     @@4
@@3: movzx   eax, byte ptr [esi-1]
     movzx   edx, byte ptr [edi-1]
@@4: sub     eax, edx
     pop     ebp
     pop     ebx
     pop     edi
     pop     esi

顺便说一句，既然我已经应用了 Peter 在评论中提到的技术，新代码应该运行得更快。

快速 Delphi ASM ASCII 字符串比较可选忽略第一个字符

有一个小算法问题

重新格式化数字，在固定位置插入分隔符

为什么 C++20 概念会导致循环约束错误，而老式的 SFINAE 不会？

VScode 自动卸载扩展的问题（Material 主题）

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

快速 Delphi ASM ASCII 字符串比较可选忽略第一个字符

1 个回答

有一个小算法问题

相关问题