在不断寻求将 .po 文件合理地纳入 git 版本控制的过程中,我编写了这个脚本用于 diff 和 filter-clean:
msgcat --no-location --no-wrap --sort-output - | msgattrib --no-obsolete - | grep -Ev '^"POT-Creation-Date|^"PO-Revision-Date|^"Last-Translator|^"X-Generator'
调用此脚本的 .gitconfig 条目如下所示:
[diff "podiff"]
textconv = cat "$1" | "$(git rev-parse --show-toplevel)"/podiff
cachetextconv = true
[filter "pocomments"]
clean = "$(git rev-parse --show-toplevel)"/podiff
smudge = cat "$1" # NOP; enable the other one temporarily to affect files on checkout, restore, etc., but please do not commit it -Zsar 2024-06-10
# smudge = "$(git rev-parse --show-toplevel)"/podiff
required
每个步骤都完成一项关键功能:
- 重构和不相关的代码更改使源位置和输入顺序不断变化。此 msgcat 调用将这些标准化,因此 commit-tet 文件没有这些更改。
- 每当 msgid 发生更改时,过时的条目会使更改集的大小加倍。我们有版本控制 -> 此 msgattrib 调用会删除它们。
- 每次有人使用专用工具编辑.po 文件的元数据条目中的这些字段时,它都会发生变化- 我们有版本控制 -> 这个 grep 调用会将它们删除。
现在又出现了一个障碍。注意到--no-wrap
前面了吗?它不起作用。
此外,换行不稳定:每次奇怪的提交,都会有人在没有人为更改的情况下在行之间翻转一个单词。
此外,相关工具 Poedit也有一个“换行于”设置,禁用它也不起作用。(因为它委托给 gettext 工具,这并不奇怪。但这意味着我无法“仅此一次”规范化文件并完成它。- 因此我首先使用 git 过滤器。)
很好,我想到了,并测试了这个调用来删除它们:sed -z -e 's/\"\n\"//'
。
它是将“msgid”和“msgstr”中的任何换行连接起来,这样工具就可以随心所欲地换行,每天都换一种方式,我不在乎。
- 它可以独立工作:
sed -z -e 's/\"\n\"//' test.po
打印预期的输出。 - 当通过 cat 管道传输时,它可以工作:
cat test.po | sed -z -e 's/\"\n\"//'
打印预期的输出。 - 但是,当添加到现有脚本时,sed 步骤不起作用。
它似乎逐行接收输入。我尝试将它放在 grep 前面,但没有任何改善,而且我无法将它移到其他两个前面,因为 msgcat 和 msgattrib 有“我喜欢随机包装”的问题,这才是引发整个问题的根本原因。
我可以流式传输grep 的输出,或者更一般地基于行的管道的输出,以便我的流编辑器可以执行其工作吗?
(注:这个网站上有很多答案说“sed 不能做到这一点” - 但 sed 专门设计为不关心换行符,所以这听起来像是错误的信息。摘自手册页:
Sed 是一个流编辑器。流编辑器用于对输入流(文件或来自管道的输入)执行基本的文本转换。[...] sed 的工作原理是只对输入进行一次传递[.]
强调我的
问题很明显,有多个输入,我想要替换的字符串在它们之间分割。)
管道始终是连续的流 - 读取器通常无法区分写入边界。(源程序可能会决定缓冲其输出并逐行或逐块刷新,但这很少能区分。)
似乎您遇到了相反的问题,即
-z
有效地告诉“sed”将其整个输入视为一个非常长的“行”,并且默认情况下其s//
操作仅替换该“行”中的第一个匹配项。添加
/g
选项来改变这种情况: