我试图了解与sed
and相关的一些性能问题awk
,我做了以下实验,
$ seq 100000 > test
$ yes 'NR==100001{print}' | head -n 5000 > test.awk
$ yes '100001{p;b}' | head -n 5000 > test.sed
$ time sed -nf test.sed test
real 0m3.436s
user 0m3.428s
sys 0m0.004s
$ time awk -F@ -f test.awk test
real 0m11.615s
user 0m11.582s
sys 0m0.007s
$ sed --version
sed (GNU sed) 4.5
$ awk --version
GNU Awk 4.2.1, API: 2.0 (GNU MPFR 3.1.6-p2, GNU MP 6.1.2)
在这里,由于测试文件只包含 100000 行,所有的命令都是test.sed
无test.awk
操作的。两个程序只需要将行号与地址(in sed
)或NR
(in awk
)进行匹配,就可以判断该命令不需要执行,但是时间成本上还是有很大区别的。为什么会这样?是否有人安装了不同版本sed
并awk
在此测试中给出了不同的结果?
编辑:结果mawk
(如@mosvy 所建议),original-awk
(在基于debian 的系统中“一个真正的awk”的名称,由@GregA.Woods 建议)并perl
在下面给出,
$ time mawk -F@ -f test.awk test
real 0m5.934s
user 0m5.919s
sys 0m0.004s
$ time original-awk -F@ -f test.awk test
real 0m8.132s
user 0m8.128s
sys 0m0.004s
$ yes 'print if $.==100001;' | head -n 5000 > test.pl
$ time perl -n test.pl test
real 0m33.245s
user 0m33.110s
sys 0m0.019s
$ mawk -W version
mawk 1.3.4 20171017
$ perl --version
This is perl 5, version 28, subversion 1 (v5.28.1) built for x86_64-linux-thread-multi
在和的情况下替换-F@
为-F ''
不会产生可观察到的变化。不支持空。gawk
mawk
original-awk
FS
编辑 2
@mosvy 的测试给出了不同的结果,21ssed
和 11s mawk
,有关详细信息,请参阅下面的评论。
awk
具有比 更广泛的功能集sed
,具有更灵活的语法。因此,解析其脚本和执行它们需要更长的时间并不是不合理的。由于您的示例命令(大括号内的部分)永远不会运行,因此对时间敏感的部分应该是您的测试表达式。
awk
首先看
awk
例子中的测试:gprof
并在(GNU awk 4.0.1)中查看其效果:大约 50% 的时间花在“解释”上,这是运行解析脚本产生的操作码的顶级循环。
每次运行测试时(即 5000 脚本行 * 100000 输入行),
awk
必须:update_NR
)。mk_number
)。cmp_nodes
,cmp_scalar
,eval_condition
)。free_wstr
,unref
)其他
awk
实现不会有完全相同的调用流程,但它们仍然必须检索变量,自动转换,然后比较。sed
相比之下,在 中
sed
,“测试”要有限得多。它只能是单个地址、地址范围或什么都没有(当命令是行中的第一件事时),并且sed
可以从第一个字符判断它是地址还是命令。在示例中,它是...单个数字地址。配置文件(GNU sed 4.2.2)显示
同样,大约 50% 的时间在顶级
execute_program
. 在这种情况下,每个输入行调用一次,然后循环解析的命令。循环以地址检查开始,但这并不是您的示例中所做的全部(见下文)。输入脚本中的行号在编译时 (
in_integer
) 被解析。对于输入中的每个地址号,只需执行一次,即。5000 次,并且对整体运行时间没有显着贡献。这意味着地址检查
match_address_p
仅比较已经可用的整数(通过结构和指针)。进一步
sed
改进配置文件显示
match_address_p
称为 2*5000*100000 次,即。每个脚本行*输入行两次。这是因为,在幕后,GNUsed
处理“开始块”命令作为到块末尾的否定分支
此地址匹配在每个输入行上都成功,从而导致分支到块的末尾 (
}
)。该块端没有关联地址,因此这是另一个成功的匹配。这就解释了为什么要花这么多时间在execute_program
.因此,
sed
如果省略未使用的,则表达式会更快;b
,结果是不必要的{...}
,只留下100001p
.这将
match_address_p
调用次数减半,并减少了大部分时间execute_program
(因为地址匹配永远不会成功)。实际上,上面的脚本不是 awk 的 noop:
即使您不使用字段的内容,根据GAWK 手册对读取的每条记录都不可避免地执行以下步骤:
如果您不使用此信息,它只会在之后被丢弃。
如果记录中没有出现字段分隔符,awk 仍然必须将文本分配给 $0(在您的情况下也分配给 $1),并将 NF 设置为实际获得的字段数(上面示例中的 1)