读取带有单词的文本文件及其出现次数和排序的打印输出

Question

Emilio Galarraga

Asked: 2021-10-20 05:11:21 +0800 CST2021-10-20 05:11:21 +0800 CST 2021-10-20 05:11:21 +0800 CST

将多个 grep 与正则表达式结合起来

772

我有这个文件：

10 replies
Big Horse
123sdf562
replies
1354654
Fat Cat
2 replies
White Horse
Big Cat
Little Dog
5 replies
725vgfvjgh123
Black Horse
Brown Cow
8798jgjh

我想提取包含单词 horse 的行，单词以数字开头的回复和数字包围的字母。所以我想要的输出必须是：

10 replies
Big Horse
123sdf562
2 replies
White Horse
5 replies
725vgfvjgh123
Black Horse

此代码grep '[0-9] replies\|[0-9][a-z]\|Horse' file返回

Big Horse
123sdf562
2 replies
White Horse
5 replies
725vgfvjgh123
Black Horse
8798jgjh

但8798jgjh不应出现在输出中，因为jgjh它没有被数字包围。

grep '[0-9] replies\|[0-9][a-z][0-9]\|Horse' file不起作用。那么，如何才能获得正确的输出呢？

4 个回答

Voted

Inian · Answer 1 · 2021-10-20T05:23:32+08:00

Inian

2021-10-20T05:23:32+08:002021-10-20T05:23:32+08:00

你可以用这个grep。在多个地方使用量词（在 BRE 中）的想法\{1,\}是匹配一起使用的组中的至少一个字符。一个便携式版本将是做

grep '[0-9]\{1,\}[[:space:]]\{1,\}replies\|Horse\|[0-9]\{1,\}[a-z]\{1,\}[0-9]\{1,\}' file

在grep支持 ERE 的版本上，例如 GNU grep，不需要表达式上的额外转义字符

grep -E '[0-9]{1,}[[:space:]]+replies|Horse|[0-9]{1,}[a-z]{1,}[0-9]{1,}' file

您可以将字符类组替换为与区域无关的组[0-9]，例如and 。[a-z][[:digit:]][[:lower:]]

^{正则表达式 - 回顾}

3

schrodingerscatcuriosity · Answer 2 · 2021-10-20T05:20:41+08:00

Best Answer

schrodingerscatcuriosity

2021-10-20T05:20:41+08:002021-10-20T05:20:41+08:00

您可以将其与 GNU 一起使用grep：

$ grep 'Horse\|^[0-9]\+ replies$\|^[0-9]\+[^0-9]\+[0-9]\+$' file
10 replies
Big Horse
123sdf562
2 replies
White Horse
5 replies
725vgfvjgh123
Black Horse

您的命令的问题是您没有量化[a-z]，因此它只查找一个字符。

2

they · Answer 3 · 2021-10-20T10:08:21+08:00

they

2021-10-20T10:08:21+08:002021-10-20T10:08:21+08:00

使用 standard grep，您将为实用程序提供您想要匹配行的单独表达式。

grep \
    -e 'Horse' \
    -e '[[:digit:]]\{1,\} replies' \
    -e '[[:digit:]]\{1,\}[[:alpha:]]\{1,\}[[:digit:]]\{1,\}' file

强制前\{n,m\}一个表达式至少匹配n一次，最多匹配m一次。这意味着\{1,\}使前一个表达式至少匹配一次，就像+在 POSIX 扩展正则表达式中所做的那样。

1

jubilatious1 · Answer 4 · 2021-10-24T20:49:07+08:00

使用 Raku（以前称为 Perl_6）

raku -ne '.put if .grep( m:i/ horse / | / <digit>+ <ws> replies / | / <digit>+ <alpha>+ <digit>+ / );'

样本输入：

10 replies
Big Horse
123sdf562
replies
1354654
Fat Cat
2 replies
White Horse
Big Cat
Little Dog
5 replies
725vgfvjgh123
Black Horse
Brown Cow
8798jgjh

样本输出：

10 replies
Big Horse
123sdf562
2 replies
White Horse
5 replies
725vgfvjgh123
Black Horse

这是使用 Perl 编程语言家族成员 Raku 的解决方案。Raku（又名 Perl6）工作始于 2000 年，其中包括对 PCRE（正则表达式）的重大修订，有些人认为它更具可读性。

上面的代码使用 Raku 的grep命令，它可以接受多个正则m/…/表达式匹配器，在这种情况下通过|布尔 OR 连接。请注意，第一个匹配器将允许不区分大小写的匹配，horse因为它使用:i不区分大小写的“副词”。如果您只想Horse匹配，则相应更改（并删除:i副词）。

当然，在写出正则表达式时要小心谨慎，您应该注意不仅会m/ Horse /匹配Big Horse, Black Horse, 和White Horse，而且也会匹配Horse-faced。您可能只想要包含Horsewhen 的行，其前面有另一个单词，中间有空格，在这种情况下m/ <alpha>+ <ws> Horse /可能符合要求。

https://docs.raku.org/language/regexes
https://raku.org

将多个 grep 与正则表达式结合起来

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

将多个 grep 与正则表达式结合起来

4 个回答

相关问题