grep 从 $START 到 $END 的一组行并且在 $MIDDLE 中包含匹配项

Question

dhm

Asked: 2024-05-03 19:03:49 +0800 CST2024-05-03 19:03:49 +0800 CST 2024-05-03 19:03:49 +0800 CST

重复列表的最快方法

772

我需要对我的 Linux 命令进行一些速度测试。输入数据是单词列表。例如：

$ cat list
elephant
horse
raven
cat
dog
fish

为了进行合理的速度测试，我需要有一个更大的文件。重复上述列表数十万次的最快方法是什么？

6 个回答

Voted

Zé Loff · Answer 1 · 2024-05-03T19:36:26+08:00

Best Answer

Zé Loff

2024-05-03T19:36:26+08:002024-05-03T19:36:26+08:00

$ jot -b "elephant
> horse
> raven
> cat
> dog
> fish" 100000 > list

jot是一个通常在 BSD 系统（包括 macOS）上默认安装的工具，但也可以安装在大多数 Linux 系统上。例如，Ubuntu 上的软件包称为athena-jot.

4

Stéphane Chazelas · Answer 2 · 2024-05-04T01:41:00+08:00

Stéphane Chazelas

2024-05-04T01:41:00+08:002024-05-04T01:41:00+08:00

通过一些head实现：

yes -- "$(cat list)" | head -c1G

list将为您提供价值 1GiB 的无限重复内容。

使用 ksh/zsh/bash，您可以替换"$(cat list)"为"$(<list)".

-c不是的标准选项head，并且并非所有支持它的实现都支持那些 KMGTPE... 后缀。另请注意，它可能会在中间切断一条线并使其不定界。

yes -- "$(cat list)" | head -n 1000000

打印1000000 行数将是标准且可移植的。

4

terdon · Answer 3 · 2024-05-03T20:26:26+08:00

terdon

2024-05-03T20:26:26+08:002024-05-03T20:26:26+08:00

这是一种方法，使用 perl：

perl -ge 'print <> x 10' < list

该-g标志指示perl立即读取整个文件并执行-e其上给出的脚本。脚本本身仅使用<>表示标准输入的特殊 perl 语法，然后我们打印@list乘以 10。在您的输入上，为x 3简单起见，给出：

$ perl -ge 'print <> x 3' < list 
elephant
horse
raven
cat
dog
fish
elephant
horse
raven
cat
dog
fish
elephant
horse
raven
cat
dog
fish

所以如果你想要数千，只需做类似的事情

perl -ge 'print <> x 100000000' < list > big.list

在我的系统上，不到 5 秒就创建了一个 3.2G 的文件：

$ time perl -ge 'print <> x 100000000' < list > big.list

real    0m4.705s
user    0m0.509s
sys 0m1.769s

$ ls -lh big.list
-rw-r--r-- 1 terdon terdon 3.2G May  3 13:25 big.list

3

Chris Davies · Answer 4 · 2024-05-03T21:38:55+08:00

Chris Davies

2024-05-03T21:38:55+08:002024-05-03T21:38:55+08:00

反复加倍。此代码非常高效，因为它仅循环log ₂ n次，文件大小就会增加n倍。（1 次迭代为两倍大小，2 次迭代为四倍大小，等等）

for f in {1..17}; do cat list list > addition && mv -f addition list; done

这将为您提供一个乘法因子 131072 (2 ¹⁷ )，这符合您“重复上述列表数十万次”的要求。

您可以cat a a a a改为加 4 ⁹，通过 9 次迭代实现乘法因子 262144。

for f in {1..9}; do cat list list list list > addition && mv -f addition list; done

该{1..17}构造是由不太简约的 shell 支持的大括号扩展，例如ksh, bash, zsh（但不是dash或 POSIX）

1

user9101329 · Answer 5 · 2024-05-03T21:59:27+08:00

user9101329

2024-05-03T21:59:27+08:002024-05-03T21:59:27+08:00

由于您不关心重复次数，因此您可以结合“超时”和“是”命令来非常快速地创建大量重复。例如：

$ timeout 0.01s yes "$(<list)" >>very_long.txt

更改 0.01 秒的时间参数以满足您的需要。保持较低的值，即使只有 1 秒，您也可能会得到 5000 万行！

1

dbran · Answer 6 · 2024-05-03T20:38:13+08:00

只需使用 for 循环：

#!/bin/bash

limit=100
file="list.txt"
content="$(< "$file")"

for ((i = 0; i < limit; i++)); do
    printf '%s\n' "$content"
done >> "$file"

这基本上将给定列表时间的初始内容附加n到同一文件中。调整limit并file使其按照您想要的方式工作。

如果列表的实际内容并不重要，您可以做一些更灵活的事情，只需将任意字符串附加到文件中，如下所示：

for ((i = 0; i < limit; i++)); do
    printf '%s\n' $RANDOM
done > newlist.txt

或者直接从命令行使用更简洁的语法：

$ for _ in {1..100}; do printf '%s\n' $RANDOM; done > newlist.txt

编辑：感谢@muru 的建议。当然，在每次迭代中进行重定向并不高效，在 for 循环之后立即附加生成的内容会更好更快。我已相应更新了答案。

更新

如果考虑效率并且需要更具可扩展性的解决方案，您可以使用外部命令seq并shuf生成所需大小的随机列表：

$ seq 1 100 | shuf > newlist.txt

为了更清楚地看到差异，让我们将迭代次数增加到 1,000,000 次并测量时间：

$ limit=1000000
$ time seq 1 $limit | shuf > newlist.txt
real    0m0.157s
user    0m0.136s
sys     0m0.034s

这比使用运行 for 循环快了近 40 倍$RANDOM，而在我的机器上使用相同的运行 for 循环则花费了 5.935 秒limit。

重复列表的最快方法

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

重复列表的最快方法

6 个回答

相关问题