AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / computer / 问题 / 1869093
Accepted
Zsar
Zsar
Asked: 2025-01-04 00:33:28 +0800 CST2025-01-04 00:33:28 +0800 CST 2025-01-04 00:33:28 +0800 CST

GNU Awk 如何匹配表达式与捕获组?

  • 772

我正在一个相当老的 Debian 10 系统上测试这个

GNU Awk 4.2.1, API: 2.0 (GNU MPFR 4.0.2, GNU MP 6.1.2)

在

GNU bash, version 5.0.3(1)-release (x86_64-pc-linux-gnu)

awk和命令都gawk调用相同的 GNU Awk 版本。

使用这些答案[1] [2] [3]我尝试编写一个脚本来检测 msgcat 发出的 gettext 合并冲突。

明文测试输入,下文称为merged_file.po:

"#-#-#-#-#  de.po (Application Library)  #-#-#-#-#\n"
"#-#-#-#-#  de.po (Middleware Library)  #-#-#-#-#\n"
"#-#-#-#-#  de.po  #-#-#-#-#\n"

我选择 awk 而不是 grep 和 sed 来跳过标题NR > <line number>。由于这没有问题,为了简洁起见,我在这里省略了它。

行语法:

  1. "#-#-#-#-#
  2. 源文件名
  3. ()如果在源文件中设置,则Project-Id-Version
  4. #-#-#-#-#\n"

使用RegExr构建的正则表达式,并在regex101支持的所有形式中得到验证:(#-#-#-#-#\s+\S+\s+(?:\(([^()]+)\)\s+)?#-#-#-#-#
请注意,这假定文件名不包含空格 - 目前我不介意。)

预期效果有两方面:

  1. 查找输出 .po 文件中出现的所有情况以发出错误消息
  2. 在捕获组 1 中捕获库名称,使错误消息更易于阅读(特别是对于不太熟悉 gettext 的人)

这些是我尝试过的调用:

  • 工作基线awk '/#-#-#-#-#\s+\S+\s+(?:\(([^()]+)\)\s+)?/ { print NR, $0 }' merged_file.po查找所有出现的情况并打印整行。
  • awk '/#-#-#-#-#\s+\S+\s+(?:\(([^()]+)\)\s+)?#/ { print NR, $0 }' merged_file.po删除所有与 Project-Id-Version 相关的条目
  • awk 'match($0, /#-#-#-#-#\s+\S+\s+(?:\(([^()]+)\)\s+)?/, library_name) { print NR, "from library \047"library_name[1]"\047" }' merged_file.po打印空字符串,而不是<Project-Id-Version>
    • library_name[0]包含直到非捕获组的行,因此显然match根本不会发出捕获组 - 如果有的话,library_name[0]则会包含整行。
  • awk '/#-#-#-#-#\s+\S+\s+(?:\(([^()]+)\)\s+)?/ { library_name = gensub(/#-#-#-#-#\s+\S+\s+(?:\(([^()]+)\)\s+)?/, "\\1", "g"); print NR, "from library \047"library_name"\047" }' merged_file.po打印"(<Project-Id-Version>) #-#-#-#-#\n"而不是<Project-Id-Version>
    • \\0确实包含了整行。
    • \\2包含与虽然相同的字符串\\1。(预期:空)

相关工具(例如 grep 或 sed)对 RegEx 的支持通常令人惊讶地不尽如人意,因此,与其询问为什么我的特定调用不起作用,我宁愿更笼统地问:

GNU Awks 的正则表达式匹配与“常态”有何不同?

(绝对)有效的 X/Y 答案:

  • 我使用的版本太旧了。(如果是,我至少需要哪一个?)
  • 我瞎了,我的 RegEx 也坏了。(如果是这样:怎么办?)
  • 应该怪罪 Bash,我需要一些神秘的逃脱方法。(如果是的话:哪些方法以及为什么?)
  • Baeldung 有一次是错的,毕竟,还有一个更简单的解决方案,而不是使用 Awk。(如果有:哪一个?)
    • 为了避免将来再次遇到同样的问题,我只希望除了 之外还能收到这封邮件,而不是代替问题本身的答案。我真的想更好地了解我对 Awk 有什么期望,以及什么不是。
regex
  • 1 1 个回答
  • 59 Views

1 个回答

  • Voted
  1. Best Answer
    Zsar
    2025-01-14T00:35:06+08:002025-01-14T00:35:06+08:00

    看起来[ 1 ][ 2 ],任何以未转义的括号(例如捕获组)开头并以问号(例如非捕获组)结尾的表达式在 Posix 扩展正则表达式中都是未定义的行为,尤其是 gawk 认为适合……放纵。

    仅使用普通捕获组,表达式#-#-#-#-#\s+\S+\s+(\(([^()]+)\)\s+)?#-#-#-#-#即可按预期匹配,并match($0, <expression>, library_name)正确捕获内部组library_name[2]。

    ...即使使用定义明确的表达式,的行为gensub也没有发生有意义的变化,但只要其中一个命令有效,我想这就“足够好了”。
    (建议,如何使其工作,欢迎进一步改进答案。)


    我被要求包括结果调用和输出,因此它在这里(考虑转义字符后):

    CONFLICT_MARKER='#-#-#-#-#\s+\S+\s+(\(([^()]+)\)\s+)?#-#-#-#-#'
    METADATA_LINE_NUMBER=$(sed -n '/^$/{=;q}' "$PO")
    CONFLICTS=$(awk "NR > $METADATA_LINE_NUMBER && /$CONFLICT_MARKER/ && match(\$0, /$CONFLICT_MARKER/, library_name) { print NR, \"from library \047\"library_name[2]\"\047\" }" "$PO")
    if [ "$CONFLICTS" ]; then
        printf "Merge conflicts found in '%s':\n%s\n" "$PO" "$CONFLICTS"
        EXIT_STATUS=3
    fi
    

    (其中$PO是从 msgcat 输出的完全限定文件名 / 传递到 msgfmt 的)

    输出(符合 OP 的命名约定)

    Merge conflicts found in '<full path>/merged_file.po':
    3785 from library 'Middleware Library'
    3790 from library 'Application Library'
    

    与视觉上繁忙但无用的基础输出相比,它在日志文件中看起来不错,信息丰富且无威胁性

    Merge conflicts found in '<full path>/merged_file.po':
    3785 #-#-#-#-#  pt.po (Middleware Library)  #-#-#-#-#
    3790 #-#-#-#-#  pt.po (Application Library)  #-#-#-#-#
    
    • 0

相关问题

  • 替换第三个值

  • 如何使用正则表达式从文件路径列表中提取裸文件名

  • Notepad++ 删除直到冒号替换所有行

  • OneDrive 有 .gitignore 吗?

  • 如果一个字符串出现在正则表达式中的另一个字符串之前,如何停止搜索

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    如何减少“vmmem”进程的消耗?

    • 11 个回答
  • Marko Smith

    从 Microsoft Stream 下载视频

    • 4 个回答
  • Marko Smith

    Google Chrome DevTools 无法解析 SourceMap:chrome-extension

    • 6 个回答
  • Marko Smith

    Windows 照片查看器因为内存不足而无法运行?

    • 5 个回答
  • Marko Smith

    支持结束后如何激活 WindowsXP?

    • 6 个回答
  • Marko Smith

    远程桌面间歇性冻结

    • 7 个回答
  • Marko Smith

    子网掩码 /32 是什么意思?

    • 6 个回答
  • Marko Smith

    鼠标指针在 Windows 中按下的箭头键上移动?

    • 1 个回答
  • Marko Smith

    VirtualBox 无法以 VERR_NEM_VM_CREATE_FAILED 启动

    • 8 个回答
  • Marko Smith

    应用程序不会出现在 MacBook 的摄像头和麦克风隐私设置中

    • 5 个回答
  • Martin Hope
    Vickel Firefox 不再允许粘贴到 WhatsApp 网页中? 2023-08-18 05:04:35 +0800 CST
  • Martin Hope
    Saaru Lindestøkke 为什么使用 Python 的 tar 库时 tar.xz 文件比 macOS tar 小 15 倍? 2021-03-14 09:37:48 +0800 CST
  • Martin Hope
    CiaranWelsh 如何减少“vmmem”进程的消耗? 2020-06-10 02:06:58 +0800 CST
  • Martin Hope
    Jim Windows 10 搜索未加载,显示空白窗口 2020-02-06 03:28:26 +0800 CST
  • Martin Hope
    andre_ss6 远程桌面间歇性冻结 2019-09-11 12:56:40 +0800 CST
  • Martin Hope
    Riley Carney 为什么在 URL 后面加一个点会删除登录信息? 2019-08-06 10:59:24 +0800 CST
  • Martin Hope
    zdimension 鼠标指针在 Windows 中按下的箭头键上移动? 2019-08-04 06:39:57 +0800 CST
  • Martin Hope
    jonsca 我所有的 Firefox 附加组件突然被禁用了,我该如何重新启用它们? 2019-05-04 17:58:52 +0800 CST
  • Martin Hope
    MCK 是否可以使用文本创建二维码? 2019-04-02 06:32:14 +0800 CST
  • Martin Hope
    SoniEx2 更改 git init 默认分支名称 2019-04-01 06:16:56 +0800 CST

热门标签

windows-10 linux windows microsoft-excel networking ubuntu worksheet-function bash command-line hard-drive

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve