AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / unix / 问题 / 506892
Accepted
Weijun Zhou
Weijun Zhou
Asked: 2019-03-18 14:49:28 +0800 CST2019-03-18 14:49:28 +0800 CST 2019-03-18 14:49:28 +0800 CST

在这种情况下,为什么 `sed` no op 比 `awk` 快得多

  • 772

我试图了解与sedand相关的一些性能问题awk,我做了以下实验,

$ seq 100000 > test
$ yes 'NR==100001{print}' | head -n 5000 > test.awk
$ yes '100001{p;b}' | head -n 5000 > test.sed
$ time sed -nf test.sed test
real    0m3.436s
user    0m3.428s
sys     0m0.004s
$ time awk -F@ -f test.awk test
real    0m11.615s
user    0m11.582s
sys     0m0.007s
$ sed --version
sed (GNU sed) 4.5
$ awk --version
GNU Awk 4.2.1, API: 2.0 (GNU MPFR 3.1.6-p2, GNU MP 6.1.2)

在这里,由于测试文件只包含 100000 行,所有的命令都是test.sed无test.awk操作的。两个程序只需要将行号与地址(in sed)或NR(in awk)进行匹配,就可以判断该命令不需要执行,但是时间成本上还是有很大区别的。为什么会这样?是否有人安装了不同版本sed并awk在此测试中给出了不同的结果?

编辑:结果mawk(如@mosvy 所建议),original-awk(在基于debian 的系统中“一个真正的awk”的名称,由@GregA.Woods 建议)并perl在下面给出,

$ time mawk -F@ -f test.awk test
real    0m5.934s
user    0m5.919s
sys     0m0.004s
$ time original-awk -F@ -f test.awk test
real    0m8.132s
user    0m8.128s
sys     0m0.004s
$ yes 'print if $.==100001;' | head -n 5000 > test.pl
$ time perl -n test.pl test
real    0m33.245s
user    0m33.110s
sys     0m0.019s
$ mawk -W version
mawk 1.3.4 20171017
$ perl --version
This is perl 5, version 28, subversion 1 (v5.28.1) built for x86_64-linux-thread-multi

在和的情况下替换-F@为-F ''不会产生可观察到的变化。不支持空。gawkmawkoriginal-awkFS

编辑 2 @mosvy 的测试给出了不同的结果,21ssed和 11s mawk,有关详细信息,请参阅下面的评论。

awk sed
  • 2 2 个回答
  • 1118 Views

2 个回答

  • Voted
  1. Best Answer
    JigglyNaga
    2019-03-20T09:08:30+08:002019-03-20T09:08:30+08:00

    awk具有比 更广泛的功能集sed,具有更灵活的语法。因此,解析其脚本和执行它们需要更长的时间并不是不合理的。

    由于您的示例命令(大括号内的部分)永远不会运行,因此对时间敏感的部分应该是您的测试表达式。

    awk

    首先看awk例子中的测试:

    NR==100001
    

    gprof并在(GNU awk 4.0.1)中查看其效果:

      % 累计自我自我总计
     时间 秒 秒 呼叫 s/呼叫 s/呼叫名称
     55.89 19.73 19.73 1 19.73 35.04 解释
      8.90 22.87 3.14 500000000 0.00 0.00 cmp_scalar
      8.64 25.92 3.05 1000305023 0.00 0.00 free_wstr
      8.61 28.96 3.04 500105014 0.00 0.00 mk_number
      6.09 31.11 2.15 500000001 0.00 0.00 cmp_nodes
      4.18 32.59 1.48 500200013 0.00 0.00 未参考
      3.68 33.89 1.30 500000000 0.00 0.00 评估条件
      2.21 34.67 0.78 500000000 0.00 0.00 更新_NR
    

    大约 50% 的时间花在“解释”上,这是运行解析脚本产生的操作码的顶级循环。

    每次运行测试时(即 5000 脚本行 * 100000 输入行),awk必须:

    • 获取内置变量“NR”( update_NR)。
    • 转换字符串 "100001" ( mk_number)。
    • 比较它们(cmp_nodes, cmp_scalar, eval_condition)。
    • 丢弃比较所需的任何临时对象 ( free_wstr, unref)

    其他awk实现不会有完全相同的调用流程,但它们仍然必须检索变量,自动转换,然后比较。

    sed

    相比之下,在 中sed,“测试”要有限得多。它只能是单个地址、地址范围或什么都没有(当命令是行中的第一件事时),并且sed可以从第一个字符判断它是地址还是命令。在示例中,它是

    100001
    

    ...单个数字地址。配置文件(GNU sed 4.2.2)显示

      % 累计自我自我总计
     时间 秒 秒 呼叫 s/呼叫 s/呼叫名称
     52.01 2.98 2.98 100000 0.00 0.00 执行程序
     44.16 5.51 2.53 1000000000 0.00 0.00 match_address_p
      3.84 5.73 0.22 match_an_address_p
    [...]
      0.00 5.73 0.00 5000 0.00 0.00 in_integer
    

    同样,大约 50% 的时间在顶级execute_program. 在这种情况下,每个输入行调用一次,然后循环解析的命令。循环以地址检查开始,但这并不是您的示例中所做的全部(见下文)。

    输入脚本中的行号在编译时 ( in_integer) 被解析。对于输入中的每个地址号,只需执行一次,即。5000 次,并且对整体运行时间没有显着贡献。

    这意味着地址检查match_address_p仅比较已经可用的整数(通过结构和指针)。

    进一步sed改进

    配置文件显示match_address_p称为 2*5000*100000 次,即。每个脚本行*输入行两次。这是因为,在幕后,GNUsed处理“开始块”命令

    100001{...}
    

    作为到块末尾的否定分支

    100001!b end; ... :end
    

    此地址匹配在每个输入行上都成功,从而导致分支到块的末尾 ( })。该块端没有关联地址,因此这是另一个成功的匹配。这就解释了为什么要花这么多时间在execute_program.

    因此,sed如果省略未使用的,则表达式会更快;b,结果是不必要的{...},只留下100001p.

      % 累计自我自我总计           
     时间 秒 秒 呼叫 s/呼叫 s/呼叫名称    
     71.43 1.40 1.40 500000000 0.00 0.00 match_address_p
     24.49 1.88 0.48 100000 0.00 0.00 执行程序
      4.08 1.96 0.08 match_an_address_p
    

    这将match_address_p调用次数减半,并减少了大部分时间execute_program(因为地址匹配永远不会成功)。

    • 8
  2. jf1
    2019-03-20T06:35:33+08:002019-03-20T06:35:33+08:00

    实际上,上面的脚本不是 awk 的 noop:

    即使您不使用字段的内容,根据GAWK 手册对读取的每条记录都不可避免地执行以下步骤:

    • 扫描所有出现的 FS
    • 场分裂
    • 更新 NF 变量

    如果您不使用此信息,它只会在之后被丢弃。

    如果记录中没有出现字段分隔符,awk 仍然必须将文本分配给 $0(在您的情况下也分配给 $1),并将 NF 设置为实际获得的字段数(上面示例中的 1)

    • 1

相关问题

  • 如何改进这个字符转换脚本?

  • 如何删除两行之间的单行

  • 重新排列字母并比较两个单词

  • 多行文件洗牌

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    模块 i915 可能缺少固件 /lib/firmware/i915/*

    • 3 个回答
  • Marko Smith

    无法获取 jessie backports 存储库

    • 4 个回答
  • Marko Smith

    如何将 GPG 私钥和公钥导出到文件

    • 4 个回答
  • Marko Smith

    我们如何运行存储在变量中的命令?

    • 5 个回答
  • Marko Smith

    如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域?

    • 3 个回答
  • Marko Smith

    dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

    • 2 个回答
  • Marko Smith

    如何从 systemctl 服务日志中查看最新的 x 行

    • 5 个回答
  • Marko Smith

    Nano - 跳转到文件末尾

    • 8 个回答
  • Marko Smith

    grub 错误:你需要先加载内核

    • 4 个回答
  • Marko Smith

    如何下载软件包而不是使用 apt-get 命令安装它?

    • 7 个回答
  • Martin Hope
    user12345 无法获取 jessie backports 存储库 2019-03-27 04:39:28 +0800 CST
  • Martin Hope
    Carl 为什么大多数 systemd 示例都包含 WantedBy=multi-user.target? 2019-03-15 11:49:25 +0800 CST
  • Martin Hope
    rocky 如何将 GPG 私钥和公钥导出到文件 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Evan Carroll systemctl 状态显示:“状态:降级” 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim 我们如何运行存储在变量中的命令? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S 为什么 /dev/null 是一个文件?为什么它的功能不作为一个简单的程序来实现? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 如何从 systemctl 服务日志中查看最新的 x 行 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - 跳转到文件末尾 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla 为什么真假这么大? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis 在一个巨大的(70GB)、一行、文本文件中替换字符串 2017-12-30 06:58:33 +0800 CST

热门标签

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve