AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / coding / 问题 / 79584118
Accepted
Ross
Ross
Asked: 2025-04-21 14:10:44 +0800 CST2025-04-21 14:10:44 +0800 CST 2025-04-21 14:10:44 +0800 CST

快速 Delphi ASM ASCII 字符串比较可选忽略第一个字符

  • 772

我希望有汇编语言经验的人能帮我写一个 Delphi 函数,如果字符串以 Chr(127) 开头,则忽略该字符串的第一个字符。这个函数用于排序比较,当比较 30,000 个条目时,由于必须在比较之前从第二个字符复制文本,因此速度非常慢。这是原始函数。

function CompareText(const S1, S2: string): Integer; assembler;
asm
        PUSH    ESI
        PUSH    EDI
        PUSH    EBX
        MOV     ESI,EAX
        MOV     EDI,EDX
        OR      EAX,EAX
        JE      @@0
        MOV     EAX,[EAX-4]
@@0:    OR      EDX,EDX
        JE      @@1
        MOV     EDX,[EDX-4]
@@1:    MOV     ECX,EAX
        CMP     ECX,EDX
        JBE     @@2
        MOV     ECX,EDX
@@2:    CMP     ECX,ECX
@@3:    REPE    CMPSB
        JE      @@6
        MOV     BL,BYTE PTR [ESI-1]
        CMP     BL,'a'
        JB      @@4
        CMP     BL,'z'
        JA      @@4
        SUB     BL,20H
@@4:    MOV     BH,BYTE PTR [EDI-1]
        CMP     BH,'a'
        JB      @@5
        CMP     BH,'z'
        JA      @@5
        SUB     BH,20H
@@5:    CMP     BL,BH
        JE      @@3
        MOVZX   EAX,BL
        MOVZX   EDX,BH
@@6:    SUB     EAX,EDX
        POP     EBX
        POP     EDI
        POP     ESI
end;

如果您能帮忙的话非常感谢。

delphi
  • 1 1 个回答
  • 174 Views

1 个回答

  • Voted
  1. Best Answer
    Sep Roland
    2025-04-22T06:34:35+08:002025-04-22T06:34:35+08:00

    如果字符串以 Chr(127) 开头,则忽略该字符串的第一个字符。

    我当然明白“在比较之前必须从第二个字符开始复制文本”会非常慢。
    你不需要复制任何东西。在 Chr(127) 的情况下,你只需将字符串中的第二个位置视为其真正的起始位置即可。在代码中,这意味着增加 ESI/EDI 的地址,同时减少 EAX/EDX 的长度。

    为了获得更好的性能,不要使用 BL 和 BH,而是使用完整的 32 位寄存器,即使这意味着保留像 EBP 这样的额外寄存器。

         push    esi
         push    edi
         push    ebx
         push    ebp
    
         mov     esi, eax             ; 1st string
         test    eax, eax             ; NULL pointer ?
         jz      @@0
         mov     eax, [esi-4]         ; LEN
         test    eax, eax             ; Is length 0 ?
         jz      @@0
         cmp     byte ptr [esi], 127  ; Is first char Chr(127) ?
         jne     @@0
         inc     esi                  ; Skip Chr(127)
         dec     eax                  ; LEN--
    
    @@0: mov     edi, edx             ; 2nd string
         test    edx, edx             ; NULL pointer ?
         jz      @@1
         mov     edx, [edi-4]         ; LEN
         test    edx, edx             ; Is length 0 ?
         jz      @@1
         cmp     byte ptr [edi], 127  ; Is first char Chr(127) ?
         jne     @@1
         inc     edi                  ; Skip Chr(127)
         dec     edx                  ; LEN--
    
    @@1: mov     ecx, eax             ; Get shorter length to ECX
         cmp     eax, edx
         jbe     @@2
         mov     ecx, edx
    
    @@2: dec     ecx
         js      @@5                  ; `JS` bypasses the loop if ECX was initially zero
         movzx   ebx, byte ptr [esi]
         inc     esi
         movzx   ebp, byte ptr [edi]
         inc     edi
         cmp     ebx, ebp
         je      @@2
    
         cmp     ebx, 'A'
         jb      @@3
         cmp     ebx, 'Z'
         ja      @@3
         or      ebx, 32              ; LCase
    @@3: cmp     ebp, 'A'
         jb      @@4
         cmp     ebp, 'Z'
         ja      @@4
         or      ebp, 32              ; LCase
    @@4: cmp     ebx, ebp
         je      @@2
         mov     eax, ebx
         mov     edx, ebp
    
    @@5: sub     eax, edx
         pop     ebp
         pop     ebx
         pop     edi
         pop     esi
    

    我确信循环,特别是它的 LCase 部分可以进一步优化,但我认为忽略前导 Chr(127) 的主要问题已经解决了……


    有一个小算法问题

    你的主循环 ( @@3) 本质上包含两部分:一部分进行“按原样”比较 ( ),另一部分进行“不区分大小写”比较。如果后者是循环中唯一的部分cmpsb,那么它就有意义,但是,与第一部分结合,它应该只用于确认为字母的当前字节。

    我不知道您的任何字符串是否包含从 91 到 96 范围内的 ASCII 代码,但如果是这样的话,那么目前您的原始代码可能会因 UCase 的发生而错误地报告来自 [a,z] 的任何字符串和来自 ]Z,a[ 的任何字符串之间的比较,同样,由于 LCase 的发生,我的第一个代码也可能因 LCase 的发生而错误地报告来自 [A,Z] 的任何字符串和来自 ]Z,a[ 的任何字符串之间的比较。

    这是修改后的代码:

         ...
    
    @@2: dec     ecx
         js      @@4                  ; `JS` bypasses the loop if ECX was initially zero
         movzx   ebx, byte ptr [esi]
         inc     esi
         movzx   ebp, byte ptr [edi]
         inc     edi
         ; *** part 1 (compare as-is) ***
         cmp     ebx, ebp
         je      @@2
         ; *** part 2 (compare case-insensitively) ***
         or      ebx, 32              ; LCase
         sub     ebx, 'a'
         cmp     ebx, 25
         ja      @@3                  ; It is not an alphabetical
         or      ebp, 32              ; LCase
         sub     ebp, 'a'
         cmp     ebp, 25
         ja      @@3                  ; It is not an alphabetical
         cmp     ebx, ebp
         je      @@2                  ; Only their case was different
         mov     eax, ebx
         mov     edx, ebp
         jmp     @@4
    @@3: movzx   eax, byte ptr [esi-1]
         movzx   edx, byte ptr [edi-1]
    @@4: sub     eax, edx
         pop     ebp
         pop     ebx
         pop     edi
         pop     esi
    

    顺便说一句,既然我已经应用了 Peter 在评论中提到的技术,新代码应该运行得更快。

    • 4

相关问题

  • 如何删除 TMS Web Core 项目上的“未经许可的试用版”消息?[关闭]

  • 为什么 TIdHTTP.Head() 生成“HTTP/1.1 406 不可接受”异常?

  • TTreeView:如何仅选中/取消选中 TTreeNode 中的子级?

  • 如何从当前光标所在位置开始查找?

  • 在 delphi/RAD studio/C++ builder 中使用 Rust 语言?[关闭]

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    重新格式化数字,在固定位置插入分隔符

    • 6 个回答
  • Marko Smith

    为什么 C++20 概念会导致循环约束错误,而老式的 SFINAE 不会?

    • 2 个回答
  • Marko Smith

    VScode 自动卸载扩展的问题(Material 主题)

    • 2 个回答
  • Marko Smith

    Vue 3:创建时出错“预期标识符但发现‘导入’”[重复]

    • 1 个回答
  • Marko Smith

    具有指定基础类型但没有枚举器的“枚举类”的用途是什么?

    • 1 个回答
  • Marko Smith

    如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误?

    • 6 个回答
  • Marko Smith

    `(表达式,左值) = 右值` 在 C 或 C++ 中是有效的赋值吗?为什么有些编译器会接受/拒绝它?

    • 3 个回答
  • Marko Smith

    在 C++ 中,一个不执行任何操作的空程序需要 204KB 的堆,但在 C 中则不需要

    • 1 个回答
  • Marko Smith

    PowerBI 目前与 BigQuery 不兼容:Simba 驱动程序与 Windows 更新有关

    • 2 个回答
  • Marko Smith

    AdMob:MobileAds.initialize() - 对于某些设备,“java.lang.Integer 无法转换为 java.lang.String”

    • 1 个回答
  • Martin Hope
    Fantastic Mr Fox msvc std::vector 实现中仅不接受可复制类型 2025-04-23 06:40:49 +0800 CST
  • Martin Hope
    Howard Hinnant 使用 chrono 查找下一个工作日 2025-04-21 08:30:25 +0800 CST
  • Martin Hope
    Fedor 构造函数的成员初始化程序可以包含另一个成员的初始化吗? 2025-04-15 01:01:44 +0800 CST
  • Martin Hope
    Petr Filipský 为什么 C++20 概念会导致循环约束错误,而老式的 SFINAE 不会? 2025-03-23 21:39:40 +0800 CST
  • Martin Hope
    Catskul C++20 是否进行了更改,允许从已知绑定数组“type(&)[N]”转换为未知绑定数组“type(&)[]”? 2025-03-04 06:57:53 +0800 CST
  • Martin Hope
    Stefan Pochmann 为什么 {2,3,10} 和 {x,3,10} (x=2) 的顺序不同? 2025-01-13 23:24:07 +0800 CST
  • Martin Hope
    Chad Feller 在 5.2 版中,bash 条件语句中的 [[ .. ]] 中的分号现在是可选的吗? 2024-10-21 05:50:33 +0800 CST
  • Martin Hope
    Wrench 为什么双破折号 (--) 会导致此 MariaDB 子句评估为 true? 2024-05-05 13:37:20 +0800 CST
  • Martin Hope
    Waket Zheng 为什么 `dict(id=1, **{'id': 2})` 有时会引发 `KeyError: 'id'` 而不是 TypeError? 2024-05-04 14:19:19 +0800 CST
  • Martin Hope
    user924 AdMob:MobileAds.initialize() - 对于某些设备,“java.lang.Integer 无法转换为 java.lang.String” 2024-03-20 03:12:31 +0800 CST

热门标签

python javascript c++ c# java typescript sql reactjs html

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve