我正在一个相当老的 Debian 10 系统上测试这个
GNU Awk 4.2.1, API: 2.0 (GNU MPFR 4.0.2, GNU MP 6.1.2)
在
GNU bash, version 5.0.3(1)-release (x86_64-pc-linux-gnu)
awk
和命令都gawk
调用相同的 GNU Awk 版本。
使用这些答案[1] [2] [3]我尝试编写一个脚本来检测 msgcat 发出的 gettext 合并冲突。
明文测试输入,下文称为merged_file.po
:
"#-#-#-#-# de.po (Application Library) #-#-#-#-#\n"
"#-#-#-#-# de.po (Middleware Library) #-#-#-#-#\n"
"#-#-#-#-# de.po #-#-#-#-#\n"
我选择 awk 而不是 grep 和 sed 来跳过标题NR > <line number>
。由于这没有问题,为了简洁起见,我在这里省略了它。
行语法:
"#-#-#-#-#
- 源文件名
(
)
如果在源文件中设置,则Project-Id-Version#-#-#-#-#\n"
使用RegExr构建的正则表达式,并在regex101支持的所有形式中得到验证:(#-#-#-#-#\s+\S+\s+(?:\(([^()]+)\)\s+)?#-#-#-#-#
请注意,这假定文件名不包含空格 - 目前我不介意。)
预期效果有两方面:
- 查找输出 .po 文件中出现的所有情况以发出错误消息
- 在捕获组 1 中捕获库名称,使错误消息更易于阅读(特别是对于不太熟悉 gettext 的人)
这些是我尝试过的调用:
- 工作基线
awk '/#-#-#-#-#\s+\S+\s+(?:\(([^()]+)\)\s+)?/ { print NR, $0 }' merged_file.po
查找所有出现的情况并打印整行。 awk '/#-#-#-#-#\s+\S+\s+(?:\(([^()]+)\)\s+)?#/ { print NR, $0 }' merged_file.po
删除所有与 Project-Id-Version 相关的条目awk 'match($0, /#-#-#-#-#\s+\S+\s+(?:\(([^()]+)\)\s+)?/, library_name) { print NR, "from library \047"library_name[1]"\047" }' merged_file.po
打印空字符串,而不是<Project-Id-Version>
library_name[0]
包含直到非捕获组的行,因此显然match
根本不会发出捕获组 - 如果有的话,library_name[0]
则会包含整行。
awk '/#-#-#-#-#\s+\S+\s+(?:\(([^()]+)\)\s+)?/ { library_name = gensub(/#-#-#-#-#\s+\S+\s+(?:\(([^()]+)\)\s+)?/, "\\1", "g"); print NR, "from library \047"library_name"\047" }' merged_file.po
打印"(<Project-Id-Version>) #-#-#-#-#\n"
而不是<Project-Id-Version>
\\0
确实包含了整行。\\2
包含与虽然相同的字符串\\1
。(预期:空)
相关工具(例如 grep 或 sed)对 RegEx 的支持通常令人惊讶地不尽如人意,因此,与其询问为什么我的特定调用不起作用,我宁愿更笼统地问:
GNU Awks 的正则表达式匹配与“常态”有何不同?
(绝对)有效的 X/Y 答案:
- 我使用的版本太旧了。(如果是,我至少需要哪一个?)
- 我瞎了,我的 RegEx 也坏了。(如果是这样:怎么办?)
- 应该怪罪 Bash,我需要一些神秘的逃脱方法。(如果是的话:哪些方法以及为什么?)
- Baeldung 有一次是错的,毕竟,还有一个更简单的解决方案,而不是使用 Awk。(如果有:哪一个?)
- 为了避免将来再次遇到同样的问题,我只希望除了 之外还能收到这封邮件,而不是代替问题本身的答案。我真的想更好地了解我对 Awk 有什么期望,以及什么不是。
看起来[ 1 ][ 2 ],任何以未转义的括号(例如捕获组)开头并以问号(例如非捕获组)结尾的表达式在 Posix 扩展正则表达式中都是未定义的行为,尤其是 gawk 认为适合……放纵。
仅使用普通捕获组,表达式
#-#-#-#-#\s+\S+\s+(\(([^()]+)\)\s+)?#-#-#-#-#
即可按预期匹配,并match($0, <expression>, library_name)
正确捕获内部组library_name[2]
。...即使使用定义明确的表达式,的行为
gensub
也没有发生有意义的变化,但只要其中一个命令有效,我想这就“足够好了”。(建议,如何使其工作,欢迎进一步改进答案。)
我被要求包括结果调用和输出,因此它在这里(考虑转义字符后):
(其中
$PO
是从 msgcat 输出的完全限定文件名 / 传递到 msgfmt 的)输出(符合 OP 的命名约定)
与视觉上繁忙但无用的基础输出相比,它在日志文件中看起来不错,信息丰富且无威胁性