这个命令是如何工作的？mkfifo /tmp/f; 猫/tmp/f | /bin/sh -i 2>&1 | 数控 -l 1234 > /tmp/f

Question

Santosh Garole

Asked: 2019-03-08 02:53:43 +0800 CST2019-03-08 02:53:43 +0800 CST 2019-03-08 02:53:43 +0800 CST

什么是快速计算 4TB 文件中行数的方法？

772

我有一个从 Teradata 记录导出的 4TB 大文本文件，我想知道该文件中有多少条记录（在我的情况下为行）。

我怎样才能快速有效地做到这一点？

6 个回答

Voted

Kusalananda · Answer 1 · 2019-03-08T02:58:09+08:00

Best Answer

Kusalananda

2019-03-08T02:58:09+08:002019-03-08T02:58:09+08:00

如果此信息尚未作为元数据存在于单独的文件中（或嵌入在数据中，或通过查询导出数据的系统可用）并且如果没有可用的某种描述的索引文件，则计算行数的最快方法是wc -l在文件上使用。

你真的不能更快地做到这一点。

要计算文件中的记录数，您必须知道使用了什么记录分隔符并使用类似awk的方法来计算这些记录。同样，如果此信息尚未作为元数据存储在其他地方，并且无法通过对原始系统的查询获得，并且记录本身尚未在文件中枚举和排序。

7

chaos · Answer 2 · 2019-03-08T04:16:47+08:00

chaos

2019-03-08T04:16:47+08:002019-03-08T04:16:47+08:00

您不应使用基于行的实用程序，例如awk和sed。read()这些实用程序将为输入文件中的每一行发出系统调用（请参阅该答案以了解为什么会这样）。如果你有很多行，这将是一个巨大的性能损失。

由于您的文件大小为 4TB，我想有很多行。所以甚至wc -l会产生很多read()系统调用，因为它16384每次调用只读取字节（在我的系统上）。无论如何，这将是对awkand的改进sed。最好的方法——除非你编写自己的程序——可能只是

cat file | wc -l

这不是 cat 的无用用途，因为每次系统调用（在我的系统上）cat读取字节块并且会发出更多，但不是直接在文件上，而是在管道上。但是，尝试尽可能多地读取每个系统调用。131072read()wc -lcat

1

Heinz-Peter Heidinger · Answer 3 · 2021-07-14T21:11:31+08:00

Heinz-Peter Heidinger

2021-07-14T21:11:31+08:002021-07-14T21:11:31+08:00

循环文件是 AWK 的工作……没有什么能比得上这个速度

LINECOUNT=`awk '{next}; END { print FNR }' $FILE

[root@vmd28527 bin]# time LINECOUNT=`awk '{next}; END { print FNR }' $FILE`; echo $LINECOUNT

real    0m0.005s
user    0m0.001s
sys     0m0.004s
7168

7168 行需要 5 毫秒……还不错……

1

Onkar · Answer 4 · 2021-12-22T18:07:43+08:00

Onkar

2021-12-22T18:07:43+08:002021-12-22T18:07:43+08:00

所以这里是 awk 和 wc 之间的速度测试

67G测试.tsv

time awk 'END {print NR}' test.tsv; time wc -l test.tsv

809162924

real    2m22.713s 
user    1m46.712s 
sys     0m19.618s 

809162924 test.tsv

real    0m20.222s 
user    0m9.629s 
sys     0m10.592s

另一个文件 72G Sample.sam

time awk 'END {print NR}' Sample.sam; time wc -l Sample.sam
180824516

real    1m18.022s
user    1m5.775s
sys     0m12.238s

180824516 Sample.sam

real    0m22.534s
user    0m4.599s
sys     0m17.921s

1

ak19 · Answer 5 · 2022-07-28T17:09:57+08:00

我还对大型 VCF 文本文件进行了速度比较。这是我发现的：

216GB VCF 文本文件（在单个 SSD 上）

$ time wc -l <my_big_file>
16695620 

real    1m26.912s
user    0m2.896s
sys     1m23.002s

$ tail -5 <my_big_file>
$ time fgrep -n <last_line_pattern>  <my_big_file>
16695620:<last_line_pattern>

real    2m10.154s
user    0m46.938s
sys     1m22.492s

$ tail -5 <my_big_file>
$ LC_ALL=C && time fgrep -n <last_line_pattern>  <my_big_file>
16695620:<last_line_pattern>

real    1m38.153s
user    0m45.863s
sys     0m51.944s

最后：

$ time awk 'END {print NR}' <my_big_file>
16695620

real    1m44.074s
user    1m11.275s
sys     0m32.780s

结论一：

wc -lSSD似乎最快。

216GB VCF 文本文件（在具有 8 个 HDD 的 RAID10 设置上）

$ time wc -l <my_big_file>
16695620 

real    7m22.397s
user    0m10.562s
sys 4m1.888s

$ tail -5 <my_big_file>
$ time fgrep -n <last_line_pattern>  <my_big_file>
16695620:<last_line_pattern>

real    7m7.812s
user    1m58.242s
sys 3m12.355s

$ tail -5 <my_big_file>
$ LC_ALL=C && time fgrep -n <last_line_pattern>  <my_big_file>
16695620:<last_line_pattern>

real    4m34.522s
user    1m26.764s
sys 1m58.247s

最后：

$ time awk 'END {print NR}' <my_big_file>
16695620

real    6m50.240s
user    2m37.574s
sys 2m43.498s

结论 2：

wc -l似乎与其他人相当。
较低的时间LC_ALL=C && time fgrep -n <last_line_pattern>很可能是由于缓存，因为随后wc -l也显示较低的时间。

rusti · Answer 6 · 2019-11-30T00:16:45+08:00

rusti

2019-11-30T00:16:45+08:002019-11-30T00:16:45+08:00

以下是对我tail -5有用的文件，然后在最后一行使用 grep 中的-n选项grep...

tail -5 "filename"

LC_ALL=C fgrep -n "text in yourlast line" "filename"

-2

什么是快速计算 4TB 文件中行数的方法？

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

什么是快速计算 4TB 文件中行数的方法？

6 个回答

相关问题